数学を捨てない統計学入門:2.確率変数
前回は抽象的な確率空間$(\Omega, \mathscr{B}, P)$を考えました. しかし,これはまだ実社会での「統計」に直結しそうにありません. そこで,今回は抽象的な確率空間と現実世界を結びつけるための「確率変数」と「分布関数」を導入します.
Borel Algebra
確率空間を現実の空間に結びつけるとき,$\Omega$は$\mathbb{R}$に対応します. そして,-algebra $\mathscr{B}$に対応するのがボレル集合族$\mathbb{B}$です.
Definition 全ての半開区間$(a,b]$を含む最小の-algebraを$\mathbb{R}$上のボレル集合族といい$\mathbb{B}$で表す. また,$\mathbb{B}$の元をボレル集合という.
さて,この定義に出てくる「全ての半開区間$(a,b]$を含む最小の-algebra」は本当に存在するのか? という疑問が(数学をやってる人なら)当然生じます. この疑問に答える命題を証明することが出来ます.
Lemma 標本空間$\Omega$の任意の部分集合族$\mathscr{F}$に対して, $\mathscr{F}$を含む最小の-algebraが存在する.
上で定義した$\mathbb{B}$は$(a,b]$の形の区間以外にも色々な区間を含みます. たとえば,$\{a\}, (a,b), [a, b], [a, b), (a, \infty), [a, \infty), (-\infty, a]$もボレル集合族に含まれます(つまりボレル集合).
確率変数
何やらややこしげなボレル集合を定義しましたが,これは確率変数(random variable; r.v.)を定義するためです.
Definition \begin{gather} X:\Omega\to\mathbb{R}\text{が}(\Omega, \mathbb{B})\text{上の確率変数} \stackrel{\textrm{def}}{\Longleftrightarrow} \forall B\in \mathbb{B},\, \left\{ \omega | X(\omega)\in B \right\}=X^{-1}(B)\in \mathscr{B} \end{gather}
確率変数は上記のようにして定義されます. 僕はよく確率変数の説明をする時に「取りうる値に対して確率が定まっている変数」という風に説明するのですが, 厳密な定義は上記のようになります. ただ,厳密な定義を知っていて何か役に立ったのか?と聞かれると正直微妙ですw. 僕自身は今は機械学習を専門にしていますが,役に立った記憶はありません. ただし,確率解析をやっていた数学科の後輩は必要不可欠な感じでした.
確率変数の定義は \begin{gather} \forall B\in \mathbb{B},\, \left\{ \omega | X(\omega)\leq a \right\}=X^{-1}(-\infty, a])\in \mathscr{B} \end{gather} と同値になります. これを使って確率変数のイメージを説明すると,次の図のようになります.
「実数空間$\mathbb{R}$で$a$以下である点の集合を$X$で$\Omega$に引き戻すとボレル集合になっている」 という図です. ちなみに,可測空間$(\mathbb{R},\mathbb{B})$において$f:\mathbb{R}\to\mathbb{B}$が \begin{gather} \forall a\in \mathbb{R},\,\left\{ x | f(x)\leq a \right\} \in \mathbb{B} \end{gather} を満たすとき,$f$を$(\mathbb{R},\mathbb{B})$上の可測関数といいます. したがって,確率変数は$(\Omega, \mathbb{B})$から$\mathbb{R}$への可測関数なわけですね.
分布関数と確率変数
ここまでで$(\Omega, \mathscr{B})$の実数空間版として$(\mathbb{R}, \mathbb{B})$が導入されました. 残りの確率測度$P$に対応するものとして分布関数$F$を導入します. 以下では,$P(X^{-1}(B))=P(\{ \omega | X(\omega)\in B\})$のことを$P(X\in B)$と表すことにします.
Definition $X$を$(\Omega, \mathscr{B}, P)$上の確率変数とする. このとき, \begin{gather} F:\mathbb{R}\to\mathbb{R}\text{が}X\text{の確率分布} \stackrel{\textrm{def}}{\Longleftrightarrow} F(x)=P(X\leq x) =P\left( \{ \omega | X(\omega)\leq x \} \right) , \, \forall x\in \mathbb{R}. \end{gather}
このように分布関数を定義したとき, \begin{gather} P(a<X\leq b)=P\left( X^{-1}((a,b])\right)=F(b)-F(a),\, \forall x\in \mathbb{R} \end{gather} が成り立ちます.
さて,ここまでの議論で確率空間での$P$に対応するものとして分布関数$F$を導入できました. こうやって$(\mathbb{R}, \mathscr{B}, F)$を導入することで以下のような利点があります.
- 実数空間で「確率」を定義しようと思ったら,$(a,b]$に対して$F$を定義すれば十分
- $X$は本当は関数なのですが,$P(X\in B)$と書くことで「$X$が$B$に含まれる確率」と$X$が変数であるかのように扱うことが出来る
- 多少大雑把な表現になりますが,$(\mathbb{R}, \mathscr{B}, F)$を導入することで,もとの抽象的な確率空間に立ち戻って議論をする必要もなくなる
また,「確率変数$X$がどのような値をどのような確率でとるのか」を,その値と確率を同時に考えて$X$の確率分布あるいは単に分布といいます. もちろん分布関数$F$はそのような情報を与えてくれる関数で,$F(x)$は確率変数$X$が$x$以下の値を取る確率を表します. ちなみに,分布関数について以下のような性質があります.
- $F$は単調非減少
- $F$は右連続
- $F(\infty)=\lim_{t\to\infty}F(t)=1$
- $F(-\infty)=\lim_{t\to-\infty}F(t)=0$
確率変数は取りうる値の集合によって,離散型と連続型に分けらます(ルベーグ積分を知っていれば,特に分ける必要はないです). 取りうる値の集合を$E$とすると,$|E|=\aleph_0$なら$X$は離散型,$|E|=\aleph$なら$X$は連続型です. つまり,$X$が自然数・整数・有理数を値に取るなら離散型,無理数・実数に値を取るなら連続型ということです.
離散型確率分布
$X$が離散型確率変数であるとき, $E=\{x_1, \cdots, x_n,\cdots \},\, p(x_i)=P(X=x_i)$とすると \begin{gather} \sum_{i=1}^{\infty}p(x_i)=1,\, F(x)=\sum_{x_i\leq x}p(x_i) \end{gather} が成り立ちます.この$p(\cdot)$のことを$X$の確率質量関数 (p.m.f.) と呼びます.
二項分布
$X$のp.m.f.が \begin{gather} p(x)=\binom{n}{x}p^{x}(1-p)^{n-x},\, x=0,1,\cdots, n; 0<p<1 \end{gather} であるとき,この分布を二項分布といい$\textrm{Bin}(n, p)$で表します. 特に,$n=1$の時の2項分布$\textrm{B}(1,p)$をベルヌーイ分布といいます.
ポアソン分布
$X$のp.m.f.が \begin{gather} p(x)=P(X=x)=\frac{\lambda^x}{x!}\exp(-\lambda),\, \lambda>0, \, x=0,1,\cdots \end{gather} であるとき,この分布をポアソン分布といい$\textrm{Poisson}(n,p)$で表します. 実際には,一定の時間間隔内での機器の故障回数や交通事故数など,稀に起こる事象の発生回数がポアソン分布に従う事が知られています.
連続型確率分布
Definition $X$を$(\Omega, \mathscr{B}, P)$上の確率変数,$F$を$X$の分布関数とすると, \begin{gather} X\text{が連続型確率変数}\stackrel{\textrm{def}}{\Longleftrightarrow} \exists f:\mathbb{R}\to\mathbb{R}^{+}(\text{非負値可測関数})\quad \textrm{s.t.} \quad F(x)=\int_{-\infty}^{x}f(u)\, du,\, \forall x\in \mathbb{R}. \end{gather}
上記定義にあるような$F$を絶対連続な分布関数と呼び,$f$を$X$の確率密度関数(p.m.f.)と言います. そして \begin{gather} f(x)\geq 0,\, \int_{-\infty}^{\infty}f(u)\,du=1,\, \frac{d}{dx}F(x)=f(x) \end{gather} という性質が成り立ちます.
一様分布
$X$のp.d.f.が \begin{gather} f(x;a,b)=\begin{cases} \frac{1}{b-a} & x\in (a,b) \\ 0 & \textrm{otherwise} \end{cases} \end{gather} であるとき,$X$は$(a,b)$上の一様分布に従う言い,$X\sim \textrm{U}(a,b)$と表します($\sim$は「従う」の意味).
指数分布
$X$のp.d.f.が \begin{gather} f(x;\theta)=\begin{cases} \theta \exp(-\theta x) & x\geq 0\\ 0 & x<0 \end{cases} \end{gather} であるとき,$X$は指数分布$\textrm{Ex}(\theta)$に従うといいます.
正規分布
$X$のp.d.f.が
であるとき,$X$は正規分布[tex:\mathcal{N}(\mu, \sigma2)]に従うといいます. 特に$\mathcal{N}(0, 1)$を標準正規分布といい,標準正規分布の密度関数を$\phi$,分布関数を$\Phi$と表すことが多いです.
正規分布はとにかく重要な分布です. 何かしらの例として出てくるのは大体が正規分布ですし,統計学の理論は殆どが何かしらが正規分布に従うという仮定を立てて理論を組み立てて,それを拡張していきます. 線形回帰モデルでも誤差に標準正規分布仮定して理論を組み立てます. 正規分布の形を知ってる人は結構多いと思いますが,標準正規分布を載せておきます.
意外と平ぺったいですね.
変数変換された確率変数
確率変数を可測関数で変換してできた変数は,また確率変数になります. このことは取り敢えず認めることとして,変換された確率変数がどのような確率変数となるかを見てみましょう.
実数$a>0,b$と確率変数$X$に対して,$Y=aX+b$も確率変数になります. このとき$Y$の分布を求めてみます.$Y,X$の分布関数をそれぞれ$F_Y, F_X$と書くことにします. $y\in \mathbb{R}$として,定義に忠実に計算を進めましょう. \begin{gather} F_Y(y)=P(Y\leq y)=P(aX+b\leq y)=P(aX\leq y-b) \end{gather} となります.よって, \begin{gather} F_Y(y)=P\left( X\leq \frac{y=b}{a}\right) =F_X\left( \frac{y-b}{a}\right) \end{gather} と求まります. さらに,$X$が連続型であると仮定してp.d.f.を求めます. \begin{gather} f_Y(y)=\frac{d}{dy}F_(y) =\frac{d}{dy}F_X\left( \frac{y-b}{a}\right) =\frac{1}{a}f_Y\left( \frac{y-b}{a}\right) \end{gather} $a<0$の場合に分布関数は \begin{gather} F_Y(y)=P\left( X\geq \frac{y-b}{a}\right) =1-P\left( X< \frac{y-b}{a}\right) =1-P\left( X\leq \frac{y-b}{a}\right) =1-F_X\left( \frac{y-b}{a}\right) \end{gather} となるので,p.d.f.は \begin{gather} f_Y(y)=\frac{d}{dy}F_Y(y) =\frac{d}{dy}\left\{ 1-F_X\left( \frac{y-b}{a}\right)\right\} =-\frac{1}{a}f_X\left( \frac{y-b}{a}\right) \end{gather} となります.したがって,一般に実数$a,b$に対して$Y=aX+b$と変換された確率変数のp.d.f.は \begin{gather} f_Y(y)=\frac{1}{|a|}f_X\left( \frac{y-b}{a}\right) \end{gather} となります.
正規分布に従う確率変数の変換
のとき,の分布を求めてみましょう. $y\in\mathbb{R}$に対して,先述の計算から
となります.ただし,です. このことから,正規分布に従う確率変数は上記のような変換をすれば,標準正規分布に従う事が分かります. この変換は結構大事で,実際にデータを分析する時の前処理などで行います. もちろん,$\mu$や$には推定値(推定値については推定のところで説明します)を放り込みます.
他にも,「正規分布に従う確率変数の変換によって得られた確率変数」が従う分布には名前がつけられているものが多いです. たとえば,
- $Y=\exp(X)$が従う分布は対数正規分布
- $Y=\sum_{i=1}^{n}X_i^2$が従う分布は自由度$n$のカイ2乗分布
などです.
まとめ
今回は確率変数を定義して,確率変数が従う「確率分布」を紹介しました. 次回はこの確率変数を多次元に拡張する話を書こうと思います.