axjack's blog

axjack is said to be an abbreviation for An eXistent JApanese Cool Klutz.

確率変数の取りうる値が2つの時の離散型確率分布の標準偏差を求める公式

結論

確率変数 X = {X_1, X_2} においてそれぞれ確率p,1-pをとる時、標準偏差SD(X)は

 \displaystyle SD(X) = |X_1 - X_2| \sqrt{ p(1-p) }

となる。ここで||は絶対値の記号である。

どこで見つけたか

edXのprobabilityの教科書?であるChapter 14 Random variables | Introduction to Data Scienceここである。

f:id:axjack:20200803234358p:plain *1 f:id:axjack:20200803234436p:plain *2

計算例

離散型確率分布が以下の表、

X p
17 0.3
-1 0.7

で与えられているとする。

まずは期待値・分散・標準偏差を計算し、最後に公式を用いて標準偏差を計算して2つの標準偏差が一致することを確かめる。

期待値

 \mu = E(X) = \sum(X = X_i)p_i = 17\times0.3 + (-1)\times0.7 = 4.4

分散

 V(X) =  E({( X-\mu) }^2 ) \\
= \sum {( X_i - \mu)}^2p_i =  {(17 - 4.4)}^2\times 0.3  + {(-1 - 4.4)}^2\times0.7 \\
= 68.04

標準偏差

分散のルートを取って求めると、

 SD(X) = \sqrt{  V(X) } = \sqrt{ 68.04}  \approx 8.248636

一方、冒頭の公式で求めると、

 SD(X) = |X_1 - X_2 |\sqrt{ p(1-p) } = | 17 - (-1) | \sqrt{  0.7 \times 0.3 } \approx 8.248636

証明

確率分布は、 X = {X_1, X_2} においてそれぞれ確率p,1-pであると設定する。この時、期待値は

 \mu = E(X) = \sum(X = X_i)p_i  = X_1 p +  X_2 (1-p)

で計算できる。

分散は、 V(X) =  E({( X-\mu) }^2 ) = \sum {( X_i - \mu)}^2p_i = {( X_1 - \mu )}^2p+ {(X_2 - \mu)}^2(1-p)

と計算できるがここで、 \muを消去すると、X_1 - \muX_2 - \muはそれぞれ、

  •  X_1 - \mu = X_1 - (X_1p + X_2(1-p) ) = (X_1 - X_2)(1-p)
  •  X_2 - \mu = X_2 - (X_1p + X_2(1-p) ) = (X_2 - X_1)p

となる。これを分散の式に代入すると、

 V(X) =  {( X_1 - \mu )}^2p+ {(X_2 - \mu)}^2(1-p) \\
= {\bigl(  (X_1 - X_2)(1-p)   \bigr)}^2 p   +   { \bigl(   (X_2 - X_1)p    \bigr)  }^2(1-p)  \\
= { (X_1 - X_2) }^{2} {(1-p)}^{2}p+{(X_2 - X_1)}^{2}p^{2}(1-p) \\
= p(1-p)\bigl(   {(X_1 - X_2)}^{2}(1-p) + {( X_2 - X_1)}^{2} p \bigr)  \\
= p(1-p)\bigl(   {(X_1 - X_2)}^{2}(1-p) + { \bigl( (-1)(X_1 - X_2)\bigr) }^{2} p \bigr)  \\
= p(1-p)\bigl(  {(X_1 - X_2)}^{2}(1-p+p) \bigr) \\
= p(1-p){(X_1 - X_2)}^2

ゆえに、 V(X) = {(X_1 - X_2)}^{2}p(1-p)より

 SD(X) = \sqrt{ V(X) } = \sqrt{ {(X_1 - X_2)}^{2}p(1-p) }  =  |X_1-X_2|\sqrt{ p(1-p) } を得る。

axjack is said to be an abbreviation for An eXistent JApanese Cool Klutz.