弱収束

確率要素の列 Xnn{Xn}_n が確率変数 XX へと弱収束するとは 任意の有界連続関数 hh に対して limnEXn[h(Xn)]=EX[h(X)] \lim_{n\rightarrow \infty}\mathbb{E}_{X_n}[h(X_n)] = \mathbb{E}_X[h(X)] が成り立つことである. ここで, EX[h(X)]\mathbb{E}_X[h(X)]hhXX に対する期待値を表す.

レヴィの連続性定理

実数値確率変数 XnX_n (n=1,2,n = 1,2,\ldots) の特性関数を φn(t)\varphi_n(t) とし, 実数値確率変数 XX の特性関数を φ(t)\varphi(t) とする. このとき, 以下は同値となる. XnX_nXX に分布収束する. φn\varphi_nφ\varphi に各点収束する. 証明 XnX_nXX に分布収束するならばφn\varphi_nφ\varphi に各点収束すること XnX_nXX に分布収束すると仮定する. このとき任意の有界連続関数 ff について E[f(Xn)]E[f(X)] \mathbb{E}[f(X_n)] \rightarrow \mathbb{E}[f(X)] が成り立つから, 特に任意の tRt\in \mathbb{R} に対して ft(x)=e1txf_t(x) = e^{\sqrt{-1}tx} とおけば φn(t)φ(t) \varphi_n(t) \rightarrow \varphi(t) が成り立つ. φn\varphi_nφ\varphi に各点収束するならばXnX_nXX に分布収束すること

カイ二乗分布

X1,X2,,XnN(0,1),i.i.d.X_1, X_2,\cdots, X_n \sim N(0,1),\quad i.i.d. とする. このとき, Y=X12+X22++Xn2 Y = X_1^2 + X_2^2 +\cdots +X_n^2 の分布を自由度 nn のカイ二乗分布とよび, χ2(n)\chi^2(n) とかく. ガンマ分布との関係 χ2(n)=Ga(n/2,2) \chi^2(n)= \textrm{Ga}(n/2,2) である. 証明 まずは E[e1tX12]=(121t)1/2 \mathbb{E}[e^{\sqrt{-1}tX_1^2}] = (1-2\sqrt{-1}t)^{-1/2} を示そう. s<1/2s<1/2 に対して, G(s)=E[esX12]=12πesx2ex2/2dx=(12s)1/2 \begin{aligned} G(s) &=\mathbb{E}[e^{sX_1^2}]\\ &= \dfrac{1}{\sqrt{2\pi}} \int e^{sx^2}e^{-x^2/2} \,dx\\ &= (1-2s)^{-1/2} \end{aligned} である. これより, G(z)G(z) は原点近傍で正則である. 一方で複素関数 (12z)1/2 (1-2z)^{-1/2} z1/2z\neq 1/2 において正則であり, G(z)G(z) と原点近傍の実軸上で一致している. よって一致の定理により G(z)=(12z)1/2G(z)= (1-2z)^{-1/2} である.

標本分布論

ある確率分布 XFX \sim F に従う互いに独立な nn 個の確率変数 X1,X2,XnX_1,X_2,\cdots X_n を得るとする. すなわち, 同時分布 FNF_N について FN(x1,x2,,xn)=F(x1)F(x2)F(xn) F_N(x_1, x_2, \cdots, x_n) = F(x_1)F(x_2)\cdots F(x_n) であるとする. このことを単にこれから X1,X2,,XnFi.i.d. X_1,X_2,\cdots , X_n \sim F\quad i.i.d. と表す. また, E[X]\mathbb{E}[X] を母集団分布の平均, または母平均と呼び, と標本平均 X\overline{X}X=1ni=1nXn \overline{X} = \dfrac{1}{n}\sum_{i=1}^n X_n により定める(X\overline{X} は確率変数の和なので確率変数である). さらに, 関数 T:x=(x1,x2,xn)T(x)RkT:x=(x_1,x_2,\cdots x_n) \mapsto T(x)\in \mathbb{R}^k としたとき, 確率変数 T(X)T(X)kk-次元統計量と呼ぶ. k=1k=1 のとき, たんに統計量と呼ぶ. また, 標本平均は統計量である. 統計量の従う分布を標本分布と呼ぶ.

特性関数

特性関数の定義 確率変数 XX に対して, 特性関数 ϕX:RR\phi_X: \mathbb{R}\rightarrow \mathbb{R}ϕX(t)=E[e1Xt],tR \phi_X(t) = \mathbb{E}[e^{\sqrt{-1}Xt}], \quad t\in \mathbb{R} により定める. 特性関数は連続関数 任意の t,ht, h について, ϕX(t+h)ϕX(t)E[e1hX1] \left|\phi_X(t+h) - \phi_X(t)\right| \le \mathbb{E}\left[\left|e^{\sqrt{-1}hX}-1\right|\right] であり, 任意の xx に対して e1tx10|e^{\sqrt{-1}tx} -1| \rightarrow 0 であることから, 優収束定理により右辺は 00 に収束する. 特性関数の性質1. 反転公式 確率変数 XX の分布 FXF_X から特性関数 ϕX\phi_X を構成したのに対して, 関数 ϕX\phi_X から分布 FXF_X を対応付けることができる. これを反転公式という. 離散分布の場合 実現値が整数のみとなる離散分布の場合, 次のような反転公式が成り立つ. 任意の kZk \in \mathbb{Z} について, pX(k)=12πππe1ktϕX(t)dt. p_X(k) = \dfrac{1}{2\pi}\int_{-\pi}^\pi e^{-\sqrt{-1}kt}\phi_X(t)\,dt.

積分と期待値・分散

積分 確率変数 XX に対して, FXF_X はその分布とし, 連続分布か離散分布のいずれかであるとする. 関数 gg を実数値の関数であるとする. このとき, FXF_X による積分を Ag(x)dFX(x)={Ag(x)fX(x)dx,F が連続分布のとき,xAg(x)pX(x),F が離散分布のとき \int_A g(x)\,dF_X(x) =\begin{cases} \displaystyle\int_A g(x)f_X(x)\,dx,\quad \text{FF が連続分布のとき}, \\ \displaystyle\sum_{x\in A}g(x)p_X(x),\quad \text{FF が離散分布のとき} \end{cases} により定める(確率変数 XX による積分とも呼ぶ). ここで, 関数 fXf_X, pXp_X はそれぞれ XX の確率密度関数, 確率質量関数を表す. ただし, この定義は g(x)g(x)FX(x)dxF_X(x)\,dx について絶対可積分であるときに意味を持つ. 期待値 確率変数 XX とその分布 FXF_X について, 積分 RxdFX(x) \int_\mathbb{R} |x| \,dF_X(x) が有限であるとする. このとき, XX の期待値を EX[X]=RxdFX(x) \mathbb{E}_X[X] = \int_\mathbb{R} x\,dF_X(x) により定める. さらに確率変数 YY とその分布 FYF_Y についても積分

連続分布と離散分布

連続分布 確率変数 XX が連続分布を持つとは, 分布関数 FXF_X が微分可能であることを言う. さらにこのとき, XX の確率密度関数 fXf_XfX(x)=dFX(x)dx,xR f_X(x) = \dfrac{d F_X(x)}{d x}, \quad x\in \mathbb{R} により定める. 定義より明らかに FX(x)=P(Xx)=xf(y)dy,xR F_X(x) = P(X\le x) = \int_{-\infty}^x f(y)\,dy, \quad x \in \mathbb{R} が成り立つ. 離散分布 確率変数 XX が離散分布を持つとは, 高々加算無限な集合 MRM\subset \mathbb{R}で, P(XM)=1 P(X\in M) = 1 となるときを言う. このとき, pX(x)=P(X=x),xM p_X(x) = P(X=x) ,\quad x \in M を確率質量関数と呼ぶ. 連続分布でも離散分布でもない場合 あるけど扱わない

統計で扱う確率の記法

確率の記法をまとめる 確率とは 事象 AA に対して P:A[0,1]P:A \mapsto [0,1] を対応させる写像みたいなもの. 和の法則とかを満たす 確率変数とは 実数に値をとる関数 XX が確率変数であるとは, FX(x)=P(Xx),xR F_X(x) = P(X\le x), \quad x\in \mathbb{R} が [0,1] に値をとる単調増加関数であり, limxFX(x)=0,limx+FX(x)=1, \begin{aligned} \lim_{x\rightarrow -\infty} F_X(x) &= 0,\\ \lim_{x\rightarrow +\infty} F_X(x) &= 1,\\ \end{aligned} をみたすものを言う. また, ここで現れた単調増加関数 FX:R[0,1]F_X: \mathbb{R} \rightarrow [0,1] を累積分布関数, または, 分布関数と呼ぶ. 一方で, 確率変数 XX と関数 FF の間に F(x)=P(Xx),xR F(x) = P(X\le x), \quad x\in \mathbb{R} が成り立つとき, XX は分布 FF に従うといい, XFX\sim F と書く.

記述統計の用語

1次元、1変量の場合 nNn\in \mathbb{N}: 標本の大きさ x1,x2,xnRx_1,x_2,\cdots x_n \in \mathbb{R}: 観測値に対して, x=1ni=1nxi \overline{x} = \dfrac{1}{n}\sum_{i=1}^n x_i を標本平均と呼び, s2=1ni=1n(xix)2 s^2 = \dfrac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2 を標本分散と呼ぶ. 2変量の場合 nNn\in \mathbb{N}: 標本の大きさ (x1,y1),(x2,y2),(xn,yn)R×R(x_1, y_1),(x_2,y_2),\cdots (x_n,y_n) \in \mathbb{R}\times \mathbb{R}: 観測値に対して, x=1ni=1nxi,y=1ni=1nyi \begin{aligned} \overline{x} &= \dfrac{1}{n}\sum_{i=1}^n x_i,\\ \overline{y} &= \dfrac{1}{n}\sum_{i=1}^n y_i \end{aligned} を標本平均と呼び, sxy=1ni=1n(xix)(yiy) s_{xy} = \dfrac{1}{n}\sum_{i=1}^n (x_i-\overline{x})(y_i - \overline{y}) を観測値 x,yx, y 間の共分散と呼ぶ. rxy=sxysxxsyy r_{xy} = \dfrac{s_{xy}}{\sqrt{s_{xx}s_{yy}}} を標本相関係数と呼ぶ. 多変量の場合 nNn\in \mathbb{N}: 標本の大きさ pNp\in \mathbb{N}: 変数の数