数学を捨てない統計学入門 1.確率

私は学部が数学系で大学院が情報系なのですが,情報系に移ってきた時に「一部の人達は統計学の数学的側面をあまり理解してないな」と感じました. ということで,何回かに分けて「数学を捨てない統計学入門」と題して記事を書こうかと思います. 内容としては,学部レベルの数理統計学で扱う内容です. 「数理統計学」というタイトルが付いた本を見てもらえれば,大体同じ内容が載っているのでそちらを見ていただいても良いと思います.

確率の導入

「数学を捨てない」と題しているからには,中高で習うような統計的確率ではなくKolmogorovが定めた公理的確率を確率の定義として採用したいと思います. そのために,まずは\sigma-algebraを定義します.

\sigma-algebra

確率は標本空間(集合)\Omegaの部分集合族(部分集合の集合)で定義されます. ただし,その部分集合族はどんな集合族でも良いわけではありません. 適当な条件を満たす,\Omegaの部分集合族の元に対してのみ確率が定義されます. その部分集合族というのが\sigma-algebraで,以下の条件を満たす\Omegaの部分集合族$\mathscr{A}$です.

  •  \Omega\in \mathscr{A}
  •  A\in \mathscr{A} \Longrightarrow A^{c} \in \mathscr{A}
  •  A_{i} \in \mathscr{A},\,i=1,2,\cdots \Longrightarrow \bigcup_{i=1}^{\infty}A_{i}\in \mathscr{A}

さて,この\sigma-algebra上に測度を用いて確率を定義していくわけですが, 「測度って何だよ?速度の誤変換か?」という人のために測度の大雑把な説明をしておきたいと思います.

測度

測度を一言で説明すると,「集合の大きさをるための尺」です. たとえば,「[0, 1 ] \times [0,1]で構成される集合の大きさは?」と聞かれれば, 「一辺の長さが1の正方形なので, 1\times 1=1」と答えるでしょう. これは,特定の尺度(ここでは正方形の面積)を通して,図形に対して実数値を対応させていることに他なりません. この集合と実数値の対応測度といいます.

確率測度

さて,上記の\sigma-algebraと測度を用いて,やっと確率を定義できます. 以下の3条件を満たすPを,可測空間(\Omega, \mathscr{A})上の確率測度といいいます.

\begin{gather} \forall A\in \mathscr{A},\, 0\leq P(A)\leq 1 \tag{P1} \\ P(\Omega)=1 \tag{P2} \\ {\displaystyle A_i\in \mathscr{A}, A_i\cap A_j=\emptyset\,(i\neq j)\Longrightarrow P\left( \bigcup_{i=1}^{\infty}A_i\right) =\sum_{i=1}^{\infty}P(A_i)} \tag{P3} \\ \end{gather}

1つ目の条件は,皆さんご存知の「確率は1を超えない」というやつですね. 2つ目は,全事象の確率は1という事を表していて, 3つ目は,排反な事象の和事象の確率はそれぞれの事象の確率の和になるという事を表しています.

ちなみに,\Omega, \mathscr{A}, Pの3つの組 (\Omega, \mathscr{A}, P)を確率空間と言います. この確率空間上で,以下のことが成り立ちます.

\begin{align} & P(\emptyset)=0 \\ & A_i \in \mathscr{A}\,(i=1,\cdots, n), A_i\cap A_j=\emptyset\,(i\neq j) \Longrightarrow P\left( \bigcup_{i=1}^{n}A_i\right)=\sum_{i=1}^{n}P(A_i)\\ & A\in \mathscr{A}\Longrightarrow P(A)+P(A^{c})=1 \\ & A,B\in \mathscr{A}\Longrightarrow P(A\cup B)=P(A)+P(B)-P(A\cup B) \\ & A_i \in \mathscr{B}\,(i=1,\cdots, n)\Longrightarrow P\left( \bigcup_{i=1}^{n}A_i\right) \leq \sum_{i=1}^{n}P(A_i) \\ & A_1\subset A_2\subset \cdots \subset,\, A_i\in \mathscr{A}\Longrightarrow P\left( \bigcup_{n=1}^{\infty}A_n\right)=\lim_{n\to \infty}P(A_n) \\ & A_1\supset A_2\supset \cdots \supset,\, A_i\in \mathscr{A}\Longrightarrow P\left( \bigcap_{n=1}^{\infty}A_n\right)=\lim_{n\to \infty}P(A_n) \\ \end{align}

いずれも「確率なんだから成り立って当然でしょ?」と思われる命題ですが, 数学では「定義→定理」という流れを大切にします. 先に定めた確率測度の定義のみから,上記の命題たちが成り立つことがわかります.

条件付き確率

確率空間$(\Omega, \mathscr{A}, P)$において,$B\in \mathscr{A}$が$P(B)>0$を満たすとする. このとき,$\forall A\in \mathscr{A}$, \begin{equation} P(A|B)=\frac{P(A\cap B)}{P(B)} \tag{1.1} \end{equation} を,事象$B$が与えられたときの$A$の条件付き確率といいます. そして,$P(\cdot\,|B)$は確率測度の定義の3条件(P1), (P2), (P3)を満たしていることが確認できます. 実際に証明してみましょう.

まずは(P1)の成立を確認します. $P(\cdot)$は確率測度なので,$\forall A\in\mathscr{A},\, P(A\cap B)\geq 0$です. また,仮定から$P(B)>0$なので,$P(A|B)\geq 0$となります. 次に(P2)の成立を確認します. $$ P(\Omega |B)=\frac{P(\Omega \cap B)}{P(B)} =\frac{P(B)}{P(B)} = 1 $$ となり,(P2)を満たすことがわかります. 最後に(P3)の成立を確認します.$A_i\in \mathscr{A}, A_i\cap A_j=\emptyset\,(i\neq j)$とすると \begin{align} P\left( \left. \bigcup_{i=1}^{\infty} A_i \right| B\right) =& \frac{P\left( \bigcup_{i=1}^{\infty} A_i \cap B\right) }{P(B)}\\ =& \frac{P(\bigcup_{i=1}^{\infty} (A_i\cap B))}{P(B)} \\ =& \frac{\sum_{i=1}^{\infty}P(A_i\cap B)}{P(B)}\\ =& \sum_{i=1}^{\infty}\frac{P(A_i\cap B)}{P(B)}\\ =& \sum_{i=1}^{\infty}P(A_i|B) \end{align} となり,(P3)を満たすことが分かります. 以上のことから,$P(\cdot\, |\,B)$は$(\Omega, \mathscr{A}, P)$上の確率測度であることが示されました.

事象の独立性

$A, B\in\mathscr{A}$に対して \begin{equation} P(A\cap B)=P(A)P(B)\tag{1.2} \end{equation} が成り立つとき,$A$と$B$は独立であると言います.

高校までは,独立なら(1.2)が成り立つと教わったと思いますが, 本来は逆です.(1.2)が成り立つときに独立という概念が定義されます.

今回のまとめ

  • 確率は特別な集合族に属する集合の大きさを測るための測度

次回は確率変数や分布の話を書こうと思います.