切断正規分布
統計学実践ワークブックの問6.1〔4〕は、いわゆる切断正規分布の問題である。このキーワードでググると良い。 なお、期待値を求めるために確率変数 のモーメント母関数を計算しようとすると怪我をする?ので、素直に から定義通り期待値を求めましょう。
2022-02-19 追記
ワークブックに従い、素直に確率密度関数f(z) = (1/2)×ϕ(z) where z > 0 , 0 where z ≦ 0 と考えた方が楽。
中心極限定理をラフに証明する
クーポンコレクターまたはコンプリートガチャ問題
統計学実践ワークブック問5.5より。
問題の概要
4種類のカードを等確率無作為復元抽出で引く。
- [1] 4種類のカードを全て揃えるまでの、回数の期待値
- [2] あらたに5種類目のカードが追加されたとする。
- x: はじめの4種類を集めてから、追加の5種類目を揃えるまでの、回数の期待値
- y: はじめから5種類を全て揃えるまでの、回数の期待値
- このとき、xとyの差を求めよ
[1]
幾何分布の復習
成功確率pのベルヌーイ試行において、はじめて成功するまでに起こる「失敗の回数」をXとすると、Xは幾何分布に従う。ここでX = kとなる確率は、、k = 0,1,...となる。Xの期待値をもとめるため、Xの確率母関数を計算すると、
である。
期待値E[X]は確率母関数をsで微分してs=1を代入したものとなる*1ので、
より、s = 1を代入し、
となる。
ここで、Xは『はじめて成功するまでに起こる「失敗の回数」』であるから、W = X+1とすれば「はじめて成功するまでの回数」の確率変数に変換することができる。Wの期待値は
となる。つまり、初めて成功するまでの回数を確率変数とする幾何分布の期待値は、成功確率の逆数となる。
4種類のカードを全て揃えるまでの、回数の期待値
4種類のカードを全て揃えるということは、
確率変数 | 成功確率 | 失敗確率 | 幾何分布に従う時の意味 |
1種類目を引き当てる | |||
1種類揃い済み、2種類目を引き当てる | |||
2種類揃い済み、3種類目を引き当てる | |||
3種類揃い済み、4種類目を引き当てる |
という確率変数 についての和の期待値を求めることに等しい。
確率変数ごとに確率が異なる(揃うたびに成功確率は小さくなる)ことに注意しつつ、それぞれ幾何分布に従っていることを踏まえると、求める期待値は、
となる。
[2]
- x: はじめの4種類を集めてから、追加の5種類目を揃えるまでの、回数の期待値
- y: はじめから5種類を全て揃えるまでの、回数の期待値
について、yは、、…、について和の期待値を求めれば良いので、 となる。*2
一方、xについては[1]の期待値に の期待値を加えたものとなるので、
となる。
以上より、 となる。
指数分布の和の分布
統計学実践ワークブック問4.2より。指数分布の和の分布を求めた時の教訓・感想です。
オチ・教訓・流れ
やること
- 1) 畳み込み積分にて和の分布を求める
- 2) モーメント母関数を使って和の分布のモーメント母関数を求める
- 再生性がないことを確かめる。
- 3) 1)で求めた和の分布のモーメント母関数を求め、これが2)と一致することを確認する
2) モーメント母関数を使って和のモーメント母関数を求める
Xのモーメント母関数を求め、XとYは独立であることからを計算することにより和の分布のモーメント母関数を求める。
なお積分範囲(0,∞)は記載省略。
Xのモーメント母関数は、
より、
従って、X+Yのモーメント母関数は
ところで、もし再生性があるのであれば和の分布のモーメント母関数はとなるはずだが、明らかに
である。指数分布は再生性を持たないことが確認できた。
2019年6月 統計検定準一級 問8
問題文
リンクが切れていないなら問題文を参照。
問題の大雑把な概要
- 中性子の月次カウントデータ217点が与えられている( )
- Fused Lasso を用いて を平滑化した実数列( ) を生成する。
- Fused Lasso:
- 小問〔1〕:
- の場合にFused Lassoで平滑化した結果を表す図を選ぶ。
- 小問〔2〕:
- 図が与えられているので適切な平滑化手法(Fused Lasso) を選ぶ。
小問〔1〕:
Lassoは
- 罰則項 の 各 を、0にしたりしなかったりするいい感じの回帰分析。
- λを大きくすると0になる各 は多くなり、λが小さかったら0になる各 は少なくなる。
という考えのもと小問〔1〕を見つめる。
ところで今回のは通常のLassoの回帰係数ではなく「 を平滑化した実数列( ) 」ということを念頭におくと、得られるβはyにほぼほぼ近いがいい感じに平滑化されているものだと考えることができる。
また、罰則項の中身がということは、第i+1項と第i項の差を表している。ということで、
- ならば隣接する項の差が0 ⇔ グラフの横軸に平行
と解釈できる。従って、λ=500よりFused Lassoで得られるβは、0になる が多い→横軸に平行な線が多い。
と考えて、答えは4となる。
小問〔2〕:
Lassoの問題なので、
- 罰則項はきっと の形をしているであろう
- 誤差項は2乗誤差だよねきっと
- 平滑化と言っているし誤差項の絶対値の中身は、差の形になっている
を踏まえて → 4,5 に絞る。
次に、4と5の違いを考えると
- 4は
- βの3項間の傾きについて述べている。
- 5は
- βの4項間の傾きについて述べている。
となることから、Lassoで得られたβによる傾き( )が3点の間で等しくなりがちな選択肢4が図に適していそうである。
5の場合は の中のパラメータの数が選択肢4よりは複雑なので図ほどシンプルな曲線は描けずもう少し滑らかとなるであろう。
正規分布と適合度検定
適合度検定 :: 株式会社アイスタット|統計分析研究所より「適合度の検定(正規性)の結果」をRにて計算してみる。
# パラメータ#### # 平均 m1 <- 64.5 # 標準偏差 sd1 <- 13.41 # 度数の総和 n <- 40 # 関数 #### # 区間a<x<bにおける標準正規分布に従うXの確率、を返す関数 f <- function(l,h){ pnorm(h,m1,sd1) - pnorm(l,m1,sd1) } # データ # 観測値:observed #### c(2,4,7,13,10,3,1) -> obs # 期待度数expected #### n * c( pnorm(40, m1, sd1) ,f(40,50) ,f(50,60) ,f(60,70) ,f(70,80) ,f(80,90) ,(1 - pnorm(90, m1, sd1) ) ) -> expected # 自由度 = 階級の個数 - 1 - 2 df1 <- 7-1-2 # χ²統計量 chi2 <- sum( (obs - expected)^2/expected ) print( chi2 ) #> print( chi2 ) #[1] 1.382639 # p値 1 - pchisq( chi2, df1) #> 1 - pchisq( chi2, df1) #[1] 0.8472068