記述統計の用語

1次元、1変量の場合

$n\in \mathbb{N}$: 標本の大きさ

$x_1,x_2,\cdots x_n \in \mathbb{R}$: 観測値に対して,

\[ \overline{x} = \dfrac{1}{n}\sum_{i=1}^n x_i \]

を標本平均と呼び,

\[ s^2 = \dfrac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2 \]

を標本分散と呼ぶ.

$n\in \mathbb{N}$: 標本の大きさ

$(x_1, y_1),(x_2,y_2),\cdots (x_n,y_n) \in \mathbb{R}\times \mathbb{R}$: 観測値に対して,

\[ \begin{aligned} \overline{x} &= \dfrac{1}{n}\sum_{i=1}^n x_i,\\ \overline{y} &= \dfrac{1}{n}\sum_{i=1}^n y_i \end{aligned} \]

を標本平均と呼び,

\[ s_{xy} = \dfrac{1}{n}\sum_{i=1}^n (x_i-\overline{x})(y_i - \overline{y}) \]

を観測値 $x, y$ 間の共分散と呼ぶ.

\[ r_{xy} = \dfrac{s_{xy}}{\sqrt{s_{xx}s_{yy}}} \]

を標本相関係数と呼ぶ.

$n\in \mathbb{N}$: 標本の大きさ

$p\in \mathbb{N}$: 変数の数

$(x_{i,1}, x_{i,2}, \cdots , x_{i,p})\in \mathbb{R}^p$, $i = 1,2,\cdots, n$: 観測値に対して,

\[ \overline{x_k} = \dfrac{1}{n}\sum_{i=1}^n x_{i,k} \]

を第 $k$ 成分の標本平均と呼び,

\[ s_{j,k} = \dfrac{1}{n}\sum_{i=1}^n (x_{i,j}-\overline{x_j})(x_{i,k} - \overline{x_k}) \]

を第 $j,k$ 間の共分散と呼ぶ.

\[ r_{j,k} = \dfrac{s_{j,k}}{\sqrt{s_{j,j}s_{k,k}}} \]

を標本相関係数と呼ぶ.

\[ \begin{aligned} S &= (s_{j,k})_{j,k},\\ R &= (r_{j,k})_{j,k} \end{aligned} \]

をそれぞれ標本分散共分散, 相関係数行列と呼ぶ

10歳の男児の身長の統計を調べたいとき, 10歳の男児全てのを調査するのは大変なため, 一部の男児を抜き出して調査する.

このように母集団から標本を抜き出すことを標本抽出と言い, 標本から母集団の性質についての結論を導くことを統計的推測という.

$N$ とかくことが多い. $N=\infty$のときは無限母集団といい, 有限の時は有限母集団という.

$n$ と書くことが多い. こっちはいつでも有限