記述統計の用語
1次元、1変量の場合
$n\in \mathbb{N}$: 標本の大きさ
$x_1,x_2,\cdots x_n \in \mathbb{R}$: 観測値に対して,
\[ \overline{x} = \dfrac{1}{n}\sum_{i=1}^n x_i \]
を標本平均と呼び,
\[ s^2 = \dfrac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2 \]
を標本分散と呼ぶ.
2変量の場合
$n\in \mathbb{N}$: 標本の大きさ
$(x_1, y_1),(x_2,y_2),\cdots (x_n,y_n) \in \mathbb{R}\times \mathbb{R}$: 観測値に対して,
\[ \begin{aligned} \overline{x} &= \dfrac{1}{n}\sum_{i=1}^n x_i,\\ \overline{y} &= \dfrac{1}{n}\sum_{i=1}^n y_i \end{aligned} \]
を標本平均と呼び,
\[ s_{xy} = \dfrac{1}{n}\sum_{i=1}^n (x_i-\overline{x})(y_i - \overline{y}) \]
を観測値 $x, y$ 間の共分散と呼ぶ.
\[ r_{xy} = \dfrac{s_{xy}}{\sqrt{s_{xx}s_{yy}}} \]
を標本相関係数と呼ぶ.
多変量の場合
$n\in \mathbb{N}$: 標本の大きさ
$p\in \mathbb{N}$: 変数の数
$(x_{i,1}, x_{i,2}, \cdots , x_{i,p})\in \mathbb{R}^p$, $i = 1,2,\cdots, n$: 観測値に対して,
\[ \overline{x_k} = \dfrac{1}{n}\sum_{i=1}^n x_{i,k} \]
を第 $k$ 成分の標本平均と呼び,
\[ s_{j,k} = \dfrac{1}{n}\sum_{i=1}^n (x_{i,j}-\overline{x_j})(x_{i,k} - \overline{x_k}) \]
を第 $j,k$ 間の共分散と呼ぶ.
\[ r_{j,k} = \dfrac{s_{j,k}}{\sqrt{s_{j,j}s_{k,k}}} \]
を標本相関係数と呼ぶ.
\[ \begin{aligned} S &= (s_{j,k})_{j,k},\\ R &= (r_{j,k})_{j,k} \end{aligned} \]
をそれぞれ標本分散共分散, 相関係数行列と呼ぶ
母集団と標本
10歳の男児の身長の統計を調べたいとき, 10歳の男児全てのを調査するのは大変なため, 一部の男児を抜き出して調査する.
母集団... 10歳の男児全体
標本... 一部の抜き出された男児
このように母集団から標本を抜き出すことを標本抽出と言い, 標本から母集団の性質についての結論を導くことを統計的推測という.
復元抽出と非復元抽出
母集団の大きさ
$N$ とかくことが多い. $N=\infty$のときは無限母集団といい, 有限の時は有限母集団という.
標本の大きさ
$n$ と書くことが多い. こっちはいつでも有限