0番：モンシロチョウとツバメの各初見日は、図３によると同じに見える。図３で言うと一番左の縦線が最小値。よって正しい。
1番：モンシロチョウの初見日の最大値はツバメの初見日の最大値よりもどうだろうか？図３で言うと一番右側の縦線を比較する。すると、モンシロチョウの初見日の最大値はツバメのそれよりも右側にあるので大きいと言える。よって正しい。
2番：中央値は図３の真ん中にある太い縦線である。ツバメの太い縦線よりも右側にモンシロチョウの太い縦線が位置している。つまり中央値もモンシロチョウの方が大きい。よって正しい。
3番：四分位範囲を比較する。モンシロチョウの四分位範囲は、3Q-1Q = 103 - 84 = 20。ツバメの四分位範囲は、3Q - 1Q = 97 - 88 = 9ぐらいと読めるので、3倍よりは小さいと思われる。よって正しい。
4番：モンシロチョウの四分位範囲は、15日以下か？少なくとも四分位範囲が85〜100を含んでいるので15日よりも大きいと確実に言える。よって正しくない。
5番：ツバメの四分位範囲は、15日以下か？少なくとも四分位範囲が90〜95を含んでいるので5日よりは大きい。しかし、残りの範囲を足しても10日加算とはならない。よって正しい。
6番：モンシロチョウとツバメの初見日が同じところが少なくとも４地点あるか？図４の傾き１の直線は、モンシロチョウとツバメの初見日が、それぞれ同じであることを示している。この直線上に点は４つあるので、同じ初見日を持つ観測点は４地点あると言える。ところで「散布図の点には重なった点が２点」あるということなのでこの直線上に重なった点がもしあれば＋２地点の可能性がある。ということで少なくとも４地点である。よって正しい。
7番：図４の点線の直線は傾き１±切片15な線である。この範囲に収まれば初見日の差は１５日以下と言えるがしかし、よく見ると、点(69,86)および点(105,88)あたりに±15を超えた点がある。よって正しくない。

(3)

標準化の話である。標準化すると平均値：0, 分散：１となる。(従って標準偏差も1)

偏差の平均値は0
X'の平均値は0
X'の標準偏差は1
2σで約95%カバーできるので2

復習も兼ねてそれぞれ導出する

基本数式

$\displaystyle X = \{x_1, x_2, \dots , x_n\} \\ \displaystyle \bar{x} = \frac{1}{n}\sum{x_i} \leftarrow const. \\ \displaystyle n\bar{x} = \sum{x_i} \\ \displaystyle s^{2} = \frac{1}{n}\sum{ (x_i - \bar{x} ) ^ {2} } \leftarrow const. \\ \displaystyle s = \sqrt{s^{2}} = \sqrt { \frac{1}{n}\sum{ (x_i - \bar{x} ) ^ {2} } } \leftarrow const.$

偏差の平均値は0

$\displaystyle \overline{x - \bar{x}} = \frac{1}{n} \sum{ ( x_i - \bar{x} ) } = \frac{1}{n} ( \sum{ x_i } - \sum{\bar{x}} )\\ = \displaystyle \frac{1}{n}( \sum{ x_i } - n\bar{x}) \\ = \displaystyle \frac{1}{n} (\sum{ x_i } - \sum{ x_i }) \\ = \displaystyle \frac{1}{n} \times 0 = 0 \\$

X'の平均値は0

$\displaystyle x_i' = \frac{x_i - \bar{x} } { s }$

より、

$\displaystyle \bar{X'} = \frac{1}{n} \sum{x_i'} = \frac{1}{n} \sum{ \frac{x_i - \bar{x}}{s}} \\ \displaystyle = \frac{1}{n} \frac{1}{s} \sum{ (x_i - \bar{x}) } = \frac{1}{s} \frac{1}{n} \sum{ (x_i - \bar{x}) } \\ = \displaystyle \frac{1}{s} \times \overline{x - \bar{x}} = \frac{1}{s} \times 0 = 0$

X'の標準偏差は1

X'の分散を求めれば標準偏差は分散の平方根で出せる。諸々の代入は上述の結果を用いる。

$\displaystyle s'^{2} = \frac{1}{n}\sum{ ( x_i' - \bar{X'} ) ^ {2} } = \frac{1}{n}\sum{ ( x_i' - 0 } ) ^ {2} \\ = \displaystyle \frac{1}{n} \sum{ x_i' ^ {2} } \\ = \displaystyle \frac{1}{n} \sum{ (\frac{x_i - \bar{x} } { s } ) ^ {2} } \\ = \displaystyle \frac{1}{n} \frac{1}{s^{2}} \sum{ ( x_i - \bar{x} ) ^{2} } \\ = \displaystyle \frac{1}{s^{2}} \frac{1}{n} \sum{ ( x_i - \bar{x} ) ^{2} } \\ = \displaystyle \frac{1}{s^{2}} s^{2} \\ = \displaystyle 1$

となるので、

$s'^{2} = 1$ より $s' = \sqrt{ s'^{2} } = \sqrt{ 1 } = 1$

解答

ソ：３
タ：４
チ：４
ツ：７
テ：0
ト：0
ナ：1
ニ：2

数学２・数学Bは？

暗算だけだと解けなかった。メモのみ。

M ~ B(50, 0.08) = B(n, p)
E[M] = np =50 * 0.08 = 4.0
V[M] = np(1-p) = 4 * (1-0.08) = 3.68 ≒ 3.7
1.64と来れば, 90%信頼区間, 両側10%。

感想

受験生の皆さんは受験お疲れ様でした。

数Ⅰの方：選択肢は多いけれども基本的な事柄が問われている。図の読み取りは大事。
数Ⅱの方：やはり基本的な事柄が問われている。最近の高校生は信頼区間なんて勉強するんだなぁ。

2019-01-12

統計検定２級に合格したので勉強法やら参考書などを書いておきます。

メモ勉強

はじめに
成績
- １回目の受験(2018年6月)
- ２回目の受験(2018年11月)
参考書・お世話になった本
参考リンク・お世話になったリンク
勉強法
おわりに
2級合格後の自分は？

はじめに

勉強の甲斐あって、2018年11月実施の統計検定２級に合格しました。ネットで検索したブログやら記事やらwebページやらを励みに、なんとか合格にたどり着いたというところです。

これから受験するみなさんの何か参考になったら良いな、という気持ちでこのブログ記事を書きます。

成績

２回受験して２回目で合格しました。

１回目の受験(2018年6月)

成績：不合格
評価：？(不合格者のうち、上位20〜40 %)
正答数：18問正解 in 34問
正答率：53 %

２回目の受験(2018年11月)

成績：合格
評価：A(優秀成績賞)
正答数：27問正解 in 34問
正答率：79 %

参考書・お世話になった本

改訂版日本統計学会公式認定統計検定2級対応統計学基礎
- 通称：教科書。難しい箇所や範囲外の記述は容赦無く日本統計学会公式認定統計検定1級対応統計学に飛ばされます。試験対策で言うと、第１章(後述)と第５章(回帰分析の出力結果に対する考察)が、なかなか他の書籍では見かけない章なので、重要です。実は練習問題の追加解説ページがあります。
詳解演習確率統計 (詳解演習ライブラリ)
- BOOK OFFで偶然見つけて買いました。演習問題の解答がちゃんと載っていて大変心強いです。
44の例題で学ぶ統計的検定と推定の解き方
- ネットで評判?だったので買った記憶。理論と実践で言えば実践に重きを置いた本。Kindle版で購入しました。仮説検定カタログと化しています。
平均・分散から始める一般化線形モデル入門
- 解説が丁寧だったので書いました。サポートページあり。一般化線形モデルは２級に必要ありませんが、そこに至るまでに線形回帰・仮説検定・信頼区間などの解説があって大変重宝しました。

参考リンク・お世話になったリンク

資料探しのコツは、

統計　講義　site:ac.jp
医療統計　講義
生物統計　講義

のように、できれば大学の学部レベルあたりの講義資料を見るのが良いでしょう。まとまっているし信憑性もありそうですし。１つの資料にこだわらず何個も資料を横串で見ると、理解が深まって良いと思います。というか、一つの資料でカバーできる範囲では無いんだなぁと探していて思いました。

統計学の時間 | 統計WEB
大学の確率・統計 | 高校数学の美しい物語
http://www3.u-toyama.ac.jp/kkarato/2016/statistics/
- ネットで見つけた資料の中では一番わかりやすいと個人的には思います。
生物統計入門
読めば必ずわかる分散分析の基礎
健康統計学（2014年度） - 健康統計の基礎・健康統計学
- とりわけ平均値の検定のフロー

勉強法

全般

参考書に掲げた書籍の例題から演習問題から、片っ端から解く
参考リンクに掲げたページを、暇な時に読みこなす
勝手にヤマをハラない
- ここは難しいから諦めよう　→　１回目の受験で落ちた原因
- 試験範囲は『統計検定2級対応統計学基礎』の全ページです

分野別?の対策

教科書の目次に沿って書いてみます。

第1章データの記述と要約

箱ひげ図やローレンツ曲線やジニ係数やラスパイレス指数でおなじみの第1章。ローレンツ曲線なんてコラム的な扱い、試験に出ないだろう・・・と思っていましたがちゃんと出題されます。ジニ係数もラスパイレス指数も同様です。

練習問題がなかなか見つからない範囲ですが、教科書の例題や定義はきちんと押さえておきましょう。練習問題が少ないとはいえ、試験前に２・３回は自分で計算して置いた方が良いです。定義式をふわっと覚えているだけだと、実際に試験で出題された際に後悔します。

第2章確率と確率分布

分布と名のつくものは全暗記。この式で定義されているのは何分布？なんて問題も出ます。暗記さえしていれば解ける問題もあるので、そういうところは確実に抑え失点を防ぎましょう。

試験に出る応用的な確率の問題はわりかし難しいので、ここはあまり注力しなくても良いのでは？と個人的には思います。統計検定であって確率検定ではないので、サイコロを７回投げる時２以下の目が出る確率を解けるようになってもなんだかなぁ、と。

ただ、ベイズの定理や条件付き確率は、典型的な問題であれば解けるようにしておいた方が良いと思います。サイコロよりはベイズの定理の方が重要かつ為になりそうな概念かと。

第3章・第4章・第5章・第6章

教科書によると、ここからが2級のメインパートです。ひとまずざっくりまとめると、

第3章統計的推定
- 点推定
- 信頼区間
第4章統計的仮説検定
- 仮説検定
第5章線形モデル分析
- 線形回帰
- 分散分析
第6章その他の分析法正規性の検討，適合度と独立性のΧ2検定
- 適合度の検定
- 独立性の検定

です。

1回目落ちて2回目で合格したので自信(?)を持って言えますが、3章から順に勉強しない方が良いです。なぜかというと、ここからが2級のメイン！と意気込んで勉強するも意味がわからず挫折orz となること間違いなしだからです。点推定も信頼区間も、割と挫折を誘います。

なので、まずは3〜6章を一通り眺めて、自分にしっくりきそうな章を1つだけ見つけてください。見つかったらその章を浅く理解します。そしてその後、他の章へ戻り浅く理解し、ぐるぐると浅い理解を反復し、最終的に3〜6章全部の理解を深めましょう。

じつは3〜6章は推測統計の枠に入った仲間たちなので、どこから始めても横のつながりが垣間見えて、最終的には全部つながります。(そこが2級の醍醐味なのかもしれません)

なお私は、

仮説検定を浅く理解
↓
適合度の検定と独立性の検定を楽しむ(∵意外と計算が楽なので)
↓
分散分析を楽しむ(∵意外と計算が楽なので。但し一元配置に限る。)
↓
仮説検定を浅く理解
↓
線形回帰をチラ見
↓
仮説検定を浅く理解
↓
点推定・信頼区間をチラ見
↓
仮説検定の問題を解きまくる
点推定・信頼区間の問題を解きまくる
たまに適合度独立性分散分析線形回帰の問題を解く
・・・

のようなループで理解を深めることができ・・・たと思います。

その他

合格者の声

合格してから気づいたのですが、公式サイトの統計検定TOP ＞合格者の声＞ 2級も必見です。様々な方の勉強方法やモチベーションが書かれています。

電卓

10桁ぐらい表示できれば十分でしょう。私が買ったのは「CASIO MH-10T」です。電卓で大事なことを箇条書きすると、

電卓を叩いた時のレスポンスが極めて大事
[C]・[AC]の挙動の違いを理解する
[M+]・[M-]・[MRC]を駆使する
[ = ] を押さなくても計算ができる場合があることを理解する

です。たとえば、 $n = 20$ なデータの組 $(x_i, y_i). i \in [1,n]$ の、

総和
二乗和
積和
平均
分散
共分散
回帰係数の傾きの推定量
回帰係数の切片の推定量
相関係数

あたりをさらっと電卓で出せるようになると良いでしょう。慣れれば機械的に答えが出てしまいます。

細かく言えば、[=] を押さなくても計算ができる場合があることを理解するは、

i	x_i	y_i
1	3	4
2	7	8
3	5	6
4	1	2

とデータが与えられた時に積和： $\sum{}x_i y_i$ を求めるとします。この時、

[3] [x] [4] [=] [M+]
[7] [x] [8] [=] [M+] 
[5] [x] [6] [=] [M+] 
[1] [x] [2] [=] [M+] 
[MRC]

と電卓を叩くのではなく、

[3] [x] [4] [M+]
[7] [x] [8] [M+] 
[5] [x] [6] [M+] 
[1] [x] [2] [M+] 
[MRC]

と叩く、ということです。素早く計算でき、かつ打鍵ミス低減 → 問題をたくさん解くことができる、に繋がります。このTipsはnが大きくなるにつれて効果が大きくなるでしょう。

おわりに

試験まで諦めずに勉強し、試験中も諦めなければなんとか合格できるはずです。Enjoy 統計学!

2級合格後の自分は？

準1級合格を目指して勉強しています。どうやら線形代数の知識をフル活用するらしく、絶賛苦しんでいる最中です。対称行列の２次形式を偏微分したり楽しい毎日を送っています。

2019-01-05

アーカイ部

メモ

リンク

自問自答

なぜwiki ?
- 更新しやすそう
wikiに何載せるの？
- テキストベースで、コンサート毎のこれまでの演奏曲一覧
- お知らせとか
- 連絡先とか
- リンク先とか
なぜdokuwiki ?
- 誰でも更新できる ( 誰が更新するのかと言う問題。更新されない情報サイト )
- 構文が簡単そう
- アクセス制御ができる
- データベースを使用しない(テキストファイル)
なぜsakura のレンタルサーバーの liteプラン?
- 安い
- dokuwikiがインストールできそう
S3は何に使うの？
- プログラムや音源を保管する
S3はwebサーバーじゃないけどアクセス制御どうするの？
- 第一段階として、さくらのレンタルサーバーでhtaccess(BASIC認証)
- 第二段階として、dokuwiki搭載サーバーを踏み台(語弊)にし、リファラでS3へのアクセス制御
音源ファイルはでかい。ダウンロードされまくると料金がやばいのでは？
- そこが一番の悩みどころ。
- ダウンロードされまくった月のクレジット引き落としが怖いね
レン鯖の容量でかいプランにするのは？
- そうすると年額がコンスタントに高い。
全部AWSとか全部Azureで良いのでは？
- アクセス制御のやり方がよくわからん。
  - cloudfrontやらaws lambdaやら Azure Active Directoryやらあるのは知っているが、ググってサクッと作るほど簡単ではなさそう＆従量課金
Google Driveは?
- Googleアカウントでアクセス制御ってのは、ちょいと面倒。全員Googleアカウント取得しないといけない。

計算

プログラム:: 11MB／1コンサート
　→　22MB／1年
　→　50年分だと　→　1100MB　→　1.1GB
　→　100年分だと　→　2.2GB

音源:: 1.5GB／1コンサート(3時間)
　→　3GB／1年
　→　50年分だと　→　150GB
　→　100年分だと　→　300GB

2018-12-24

統計学入門 p.65 問3.4 ブートストラップ(途中)

勉強統計

データ

data.x <- c(71,68,66,67,70,71,70,73,72,65,66)
data.y <- c(69,64,65,63,65,62,65,64,66,59,62)

相関係数は

> cor(data.x, data.y)
[1] 0.5580547

ブートストラップ

11組のデータからランダムに11個復元抽出し相関係数を計算する、ような関数を作る。

bs <- function(x){
  bx <- sample(data.x,size = 11,replace = T)
  by <- sample(data.y,size = 11,replace = T)
  return( cor(bx,by) )
}

上の関数を10,000回繰り返す。

data.r <- sapply(1:10000,bs)

結果

par(mfrow=c(2,1))
hist(data.r,breaks = seq(-1,1,0.05), main="Histogram of correlation",freq = F,xlab="range of r")
lines(density(data.r), col = "orange", lwd = 2)
boxplot(data.r,horizontal = T)

f:id:axjack:20181224110122p:plain

考察

母相関係数が０になることもあるよってことなのだろうか？ブートストラップ法について調べる必要がある。

2018-12-20

期待値の基本からモーメント母関数まで

統計

基本

確率分布の総和は1

$\sum f(x) = 1\\$

期待値と原点周りのモーメント

以下は記法として覚えてしまうのが得策です。

$E\bigl[ X \bigr] = \sum x f(x) = \mu \\ E\bigl[ X^1 \bigr] = \sum x^1 f(x) = \sum x f(x) = \mu_1 = \mu \\ E\bigl[ X^2 \bigr] = \sum x^2 f(x) = \mu_2 \\ \hspace{10pt} \vdots \\ E\bigl[ X^k \bigr] = \sum x^k f(x) = \mu_k \\$

指数関数

マクローリン展開です。
$\displaystyle exp(\theta) = e^{\theta} = \sum_{\theta=0}^{k} \frac {\theta^k} {k!} = 1 + \theta + \frac {\theta^2} {2!} + \dots + \frac {\theta^k} {k!} \\ \displaystyle exp(tx) = e^{tx} = \sum_{tx=0}^{k} \frac {(tx)^k} {k!} = 1 + tx + \frac {(tx)^2} {2!} + \dots + \frac {(tx)^k} {k!} \\ \displaystyle = 1 + tx + \bigl( \frac {t^2} {2!} \bigr) x^2 + \dots + \bigl( \frac {t^k} {k!} \bigr) x^k \\$

期待値の性質

$E\bigl[ \ 1 \ \bigr] = \sum 1 \times f(x) = 1 \times \sum f(x) = 1 \times 1 = 1 \\ E\bigl[ \ 0 \ \bigr] = \sum 0 \times f(x) = 0 \times \sum f(x) = 0 \times 1 = 0 \\ E\bigl[ \ c \ \bigr] = \sum cf(x) = c\sum f(x) = c \times 1 = c \\ E\bigl[ tX \bigr] = \sum (tx) \times f(x) = t \sum x f(x) = t E\bigl[X\bigr] = t \mu \\ E\bigl[ g(X) \bigr] = \sum g(x) f(x) \\$

モーメント母関数

上記の式を結集すると、モーメント母関数が理解できてく。はず。。

$M_X\bigl[ \ t \ \bigr] \equiv E\bigl[ e^{tX} \bigr] = \sum e^{tx} f(x) = \sum \Bigl( 1 +tx + \frac{ (tx)^2 } {2!} + \cdots + \frac{(tx)^k}{k!} \Bigr) f(x) \\ = \sum \Bigl( f(x) +txf(x) + \frac{ (tx)^2 } {2!}f(x) + \cdots + \frac{(tx)^k}{k!}f(x) \Bigr) \\ = \sum \Bigl( f(x) +t\bigl( xf(x) \bigr) + \frac{t^2} {2!} \bigl( x^2 f(x) \bigr) + \cdots + \frac{t^k }{k!} \bigl( x^k f(x) \bigl) \Bigr) \\ = \sum f(x) + \sum t\bigl( xf(x) \bigr) + \sum \frac{t^2} {2!} \bigl( x^2 f(x) \bigr) + \cdots + \sum \frac{t^k }{k!} \bigl( x^k f(x) \bigl) \\ = \sum f(x) + t \sum \bigl( xf(x) \bigr) + \frac{t^2} {2!} \sum \bigl( x^2 f(x) \bigr) + \cdots + \frac{t^k }{k!} \sum \bigl( x^k f(x) \bigl) \\ \displaystyle= 1 + t E\bigl[ X \bigr] + \frac{t^2} {2!} E\bigl[ X^2 \bigr] + \dots + \frac{t^k }{k!} E\bigl[ X^k \bigr] \\ \displaystyle= 1 + t\mu_1 + \frac{t^2} {2!} \mu_2 + \dots + \frac{t^k} {k!} \mu_k$

となるので、

$\displaystyle \left.M_X\bigl[ \ t \ \bigr]' \right |_{t=0} = \mu_1 \\ \displaystyle \left.M_X\bigl[ \ t \ \bigr]'' \right |_{t=0} = \mu_2 \\ \hspace{10pt} \vdots \\ \displaystyle \left.M_X\bigl[ \ t \ \bigr]^{(k)} \right |_{t=0} = \mu_k \$

を得る。

2018-12-17

統計検定2級 2018年6月問4の2

2010年の輸出物価指数を $p_0$ とすると、2011年の輸出物価指数 $p_1$ は変化率 $r_0$ を用いて

$p_1 = p_0 (1+r_0)$

と書ける。

以下同様に書き出すと、
$p_2 = p_1(1+r_1)\\ p_3 = p_2(1+r_2)\\ p_4 = p_3(1+r_3)\\ p_5 = p_4(1+r_4)\\$

の式が得られる。さて、前年からの変化率が常にrであるならば

$p_5 = 100$

となるので、得られた式を下から上に掛けて代入していくと、

$100 = p_5 = p_0\times\prod_{i=0}^{4}(1 + r_i )$

となる。ところで、「変化率が常にrである」とは $1 + r_i$ を $1+r$ と置き換えるに等しい。
したがって、

$100 = p_5 = p_0\times\prod_{i=0}^{4} (1+r)$

を得る。よって、 $p_0 = 89.5$ を代入し、

$100 = p_5 = 89.5\times\prod_{i=0}^{4} (1+r) \\ = 89.5\times(1+r)^5\\ \Leftrightarrow \frac{ 100 } {89.5} = ( 1 + r )^5\\ \Leftrightarrow ( \frac{ 100 } {89.5} )^{\frac{1}{5}} = 1 + r \\ \Leftrightarrow ( \frac{ 100 } {89.5} )^{\frac{1}{5}} - 1 = r \\$

となる。答えは②である。

2018-12-17

平方和分解の途中式を淡々と書く。

勉強統計

$\sum_{}(y_i-\bar{y})^2 = \sum_{}( (y_i - \hat{y_i} ) + ( \hat{y_i} - \bar{y}) )^2\\ = \sum_{}(y_i-\hat{y_i})^2 + 2\sum_{}(y_i-\hat{y_i})(\hat{y_i}-\bar{y}) + \sum_{}(\hat{y_i}-\bar{y})^2 \\$

となるが、ここで上式の第二項を取り出すと

$\sum_{}(y_i-\hat{y_i})(\hat{y_i}-\bar{y})\\ = \sum_{}(y_i - \hat{y_i} )(\hat{\beta}(x_i - \bar{x} ))\\ = \sum_{}(y_i - ( \bar{y} + \hat{\beta}(x_i - \bar{x} ) )) (\hat{\beta}(x_i - \bar{x} ))\\ = \sum_{}( ( y_i - \bar{y} ) - \hat{\beta}(x_i - \bar{x} ) ) (\hat{\beta}(x_i - \bar{x} ))\\ = \sum_{}\hat{\beta}(y_i - \bar{y} )(x_i - \bar{x} ) - \hat{\beta}^2 \sum_{}(x_i - \bar{x} )^2\\ = \hat{\beta}S_{xy} - \hat{\beta}^2S_{xx} = \hat{\beta}(S_{xy} - \hat{\beta}S_{xx} )\\ = \hat{\beta}(S_{xy} - \frac{S_{xy}}{S_{xx}}S_{xx} )\\ = \hat{\beta}(S_{xy} - S_{xy} )\\ = 0\\$

となるので、結局

$\sum_{}(y_i-\bar{y})^2 = \sum_{}(y_i-\hat{y_i})^2 + \sum_{}(\hat{y_i}-\bar{y})^2 \\$

と得る。

なお、
$\hat{y_i} = \hat{\alpha} + \hat{\beta} x_i , \hat{y_i} - \bar{y} = \hat{\beta}(\hat{x_i} - \bar{x})\\ \Leftrightarrow \hat{y_i} = (\bar{y} - \hat{\beta}\bar{x} ) + \hat{\beta} x_i \\ \Leftrightarrow \hat{y_i} - \bar{y} = \hat{\beta}( x_i - \bar{x} )$

および、
$T_{xy} = \sum_{}(x_i - \bar{x} )(y_i -\bar{y}), \\ T_{xx} = \sum_{} (x_i - \bar{x} )^2 , \\ S_{xy} = \frac{1}{n}T_{xy}, \\ S_{xx} = \frac{1}{n}T_{xx}, \\ \hat{\beta} = \frac{ T_{xy} }{ T_{xx} } = \frac{ S_{xy} }{ S_{xx} }$
を用いた。

2018-11-17

統計検定2級 2018年6月問8の2

勉強

問題

ある世帯の毎年６月に於ける電気料金は、平均4000円、標準偏差500円の独立同一正規分布で近似される。ある年に於いて、6月の電気料金がその前年の6月の電気料金より800円以上高くなる確率は？

考え方

情報整理

μ = 4000
σ = 500
Xi = 任意の年の6月の電気料金を表す確率変数
E[Xi] = μ
V[Xi] = σ²
今年6月の電気料金：X1
前年6月の電気料金：X2

求めるもの

題意を式で書くとP(X1-X2 ≧ 800)である。

そこで、まずP(X1-X2 ≧ 800) を計算するために必要な、X1-X2が従う分布のパラメータ(期待値・分散)を求め、最終的に確率を計算する。

計算

X1-X2の期待値・分散を求めると、

E[X1-X2] = E[X1] - E[X2] = μ - μ = 0

V[X1-X2] = V[X1] + V[X2] - 2Cov[X1,X2]

ここで、

Cov[X1,X2] = E[X1X2] - E[X1]E[X2]

であるが、X1とX2は独立なのでE[X1X2]=E[X1]E[X2]である。ゆえに、Cov[X1,X2] = 0

よって、

V[X1-X2] 
= V[X1] + V[X2] - 2Cov[X1,X2]
= V[X1] + V[X2] - 2×0
= V[X1] + V[X2] - 0
= V[X1] + V[X2] 
= σ^2+ σ^2 
= 2σ^2

結論

計算結果より、X1-X2が従う分布のパラメータ(期待値・分散)は、

期待値：0
分散：2σ²

となるので、X1-X2はN(0,2σ²)に従うと書ける。

以上を用いて P( X1-X2 ≧ 800 )を計算すると、

P( X1-X2 ≧ 800 )
　　ここで、
　　Z = ( (X1-X2)-0 ) / √(2σ^2)
　　と標準化すると
= P( Z ≧ ( 800-0 ) / √(2σ^2) )
= P( Z ≧ 800 / (σ√2) )
= P( Z ≧ 800 / (500√2) )
= P( Z ≧ 1.131...)
　　標準正規分布の上側確率表より
= 0.129

よって、ある年に於いて、6月の電気料金がその前年の6月の電気料金より800円以上高くなる確率は0.129である。

参照

2018年6月統計検定2級の問題の解説（その2） | ブログ | 統計WEB

数学I・数学Ａ〔２〕

(1)

2013年のヒストグラム

2017年のヒストグラム

(2)

(3)