やること
統計学実践ワークブック 第12章 一般の分布に関する検定法 問12.2の[4] あてはまりのよさ について考えてみる。
情報整理
得られたデータについて
図示
赤がA(まとめる前)で、青がB(まとめた後)のカイ二乗分布で、塗りつぶし部分がP-値の範囲である。(赤塗りつぶしがおよそ0.05で、青塗りつぶしがおよそ0.8)
カイ二乗分布上側確率表
自由度 \ 上側確率 | 0.025 | 0.05 | 0.10 | 0.5 | 0.8 |
---|---|---|---|---|---|
9 | 19.02 | 16.92 | 14.68 | 8.34 | 5.38 |
5 | 12.82 | 11.07 | 9.23 | 4.35 | 2.34 |
結果の比較
適合度検定の帰無仮説は「観測度数が期待度数に適合している」である。したがって、
- 帰無仮説を棄却する
- 「観測度数が期待度数に適合している」とは言えない
- 帰無仮説を棄却するに足るデータが得られた
- 適合していない
- 当てはまっていない
- 帰無仮説を棄却しない
- 「観測度数が期待度数に適合している」と言えないこともない
- 帰無仮説を棄却するに足るデータが得られなかった
- 適合していることは棄却しない
- 当てはまっている
と結論づけたい(よくある言い回しのまとめ、願望)。
以上を考えると、P-値が大きい方が(ある有意水準から導出される棄却域に入っていないという意味では)比較的あてはまりがよいと思われる。結果、B)まとめた後の方が(今回の問題で言えばパラメータλ=2.99のポアソン分布に)比較的あてはまりがよいと考えられる。あくまで比較的であってストレートに「あてはまっている」と言ってはいけないところが統計学の言い回しなところに留意したい。
一方ワークブックでは
この結論に対して、上側10%点より大きいか小さいかで判断している。これは、
- P-値を直接求めなくとも自由度に応じたカイ二乗上側パーセント点を使えばP-値の大小関係は分かる
- どのような有意水準であれば棄却できるのかできないのか
- 適合度検定において棄却するとは棄却しないとはどのような意味なのか
を学び取れというメッセージなのかもしれない。
付録:ソースコード
# グラフ作成用関数 fdraw <- function(df,from,to,col,add,chisq_stat, ylim = c(0, 0.2) ){ # 自由度 = df のカイ二乗分布 curve(dchisq(x, df), from, to, add = add, col = col, xlab = '', ylab = '', ylim=ylim) # カイ二乗統計量 points(chisq_stat, 0, col=col) # 上側確率の塗りつぶし rng <- seq(chisq_stat,to,0.2) segments(rng, 0, rng, dchisq(rng, df = df), col = col) # P-値 print(paste("自由度",df,", カイ二乗統計量",chisq_stat, " のP-値は", pchisq(chisq_stat, df, lower.tail = F) )) } # グラフ作成 fdraw(df=9, from=0, to=20, col='red',add = F, chisq_stat = 16.37) fdraw(df=5, from=0, to=20, col='blue',add = T, chisq_stat = 2.27) # カイ二乗分布上側確率表 qchisq( c(0.025, 0.05, 0.1,0.5,0.8) , df = 9, lower.tail = F) qchisq( c(0.025, 0.05, 0.1,0.5,0.8) , df = 5, lower.tail = F)