axjack's blog

axjack is said to be an abbreviation for An eXistent JApanese Cool Klutz.

統計検定2級に合格したので勉強法やら参考書などを書いておきます。

はじめに

勉強の甲斐あって、2018年11月実施の統計検定2級に合格しました。ネットで検索したブログやら記事やらwebページやらを励みに、なんとか合格にたどり着いたというところです。

これから受験するみなさんの何か参考になったら良いな、という気持ちでこのブログ記事を書きます。

成績

2回受験して2回目で合格しました。

1回目の受験(2018年6月)

  • 成績:不合格
  • 評価:?(不合格者のうち、上位20〜40 %)
  • 正答数:18問正解 in 34問
  • 正答率:53 %

2回目の受験(2018年11月)

  • 成績:合格
  • 評価:A(優秀成績賞)
  • 正答数:27問正解 in 34問
  • 正答率:79 %

参考書・お世話になった本

参考リンク・お世話になったリンク

資料探しのコツは、

  • 統計 講義 site:ac.jp
  • 医療統計 講義
  • 生物統計 講義

のように、できれば大学の学部レベルあたりの講義資料を見るのが良いでしょう。まとまっているし信憑性もありそうですし。1つの資料にこだわらず何個も資料を横串で見ると、理解が深まって良いと思います。というか、一つの資料でカバーできる範囲では無いんだなぁと探していて思いました。

勉強法

全般

  • 参考書に掲げた書籍の例題から演習問題から、片っ端から解く
  • 参考リンクに掲げたページを、暇な時に読みこなす
  • 勝手にヤマをハラない
    • ここは難しいから諦めよう → 1回目の受験で落ちた原因
    • 試験範囲は『統計検定2級対応 統計学基礎』の全ページです

分野別?の対策

教科書の目次に沿って書いてみます。

第1章 データの記述と要約

箱ひげ図やローレンツ曲線やジニ係数ラスパイレス指数でおなじみの第1章。ローレンツ曲線なんてコラム的な扱い、試験に出ないだろう・・・と思っていましたがちゃんと出題されます。ジニ係数ラスパイレス指数も同様です。

練習問題がなかなか見つからない範囲ですが、教科書の例題や定義はきちんと押さえておきましょう。練習問題が少ないとはいえ、試験前に2・3回は自分で計算して置いた方が良いです。定義式をふわっと覚えているだけだと、実際に試験で出題された際に後悔します。

第2章 確率と確率分布

分布と名のつくものは全暗記。この式で定義されているのは何分布?なんて問題も出ます。暗記さえしていれば解ける問題もあるので、そういうところは確実に抑え失点を防ぎましょう。

試験に出る応用的な確率の問題はわりかし難しいので、ここはあまり注力しなくても良いのでは?と個人的には思います。統計検定であって確率検定ではないので、サイコロを7回投げる時2以下の目が出る確率を解けるようになってもなんだかなぁ、と。

ただ、ベイズの定理や条件付き確率は、典型的な問題であれば解けるようにしておいた方が良いと思います。サイコロよりはベイズの定理の方が重要かつ為になりそうな概念かと。

第3章・第4章・第5章・第6章

教科書によると、ここからが2級のメインパートです。ひとまずざっくりまとめると、

  • 第3章 統計的推定
  • 第4章 統計的仮説検定
    • 仮説検定
  • 第5章 線形モデル分析
    • 線形回帰
    • 分散分析
  • 第6章 その他の分析法 正規性の検討,適合度と独立性のΧ2検定
    • 適合度の検定
    • 独立性の検定

です。

1回目落ちて2回目で合格したので自信(?)を持って言えますが、3章から順に勉強しない方が良いです。なぜかというと、ここからが2級のメイン!と意気込んで勉強するも意味がわからず挫折orz となること間違いなしだからです。点推定も信頼区間も、割と挫折を誘います。

なので、まずは3〜6章を一通り眺めて、自分にしっくりきそうな章を1つだけ見つけてください。見つかったらその章を浅く理解します。そしてその後、他の章へ戻り浅く理解し、ぐるぐると浅い理解を反復し、最終的に3〜6章全部の理解を深めましょう。

じつは3〜6章は推測統計の枠に入った仲間たちなので、どこから始めても横のつながりが垣間見えて、最終的には全部つながります。(そこが2級の醍醐味なのかもしれません)

なお私は、

仮説検定を浅く理解
↓
適合度の検定と独立性の検定を楽しむ(∵意外と計算が楽なので)
↓
分散分析を楽しむ(∵意外と計算が楽なので。但し一元配置に限る。)
↓
仮説検定を浅く理解
↓
線形回帰をチラ見
↓
仮説検定を浅く理解
↓
点推定・信頼区間をチラ見
↓
仮説検定の問題を解きまくる
点推定・信頼区間の問題を解きまくる
たまに適合度独立性分散分析線形回帰の問題を解く
・・・

のようなループで理解を深めることができ・・・たと思います。

その他

電卓

10桁ぐらい表示できれば十分でしょう。私が買ったのは「CASIO MH-10T」です。電卓で大事なことを箇条書きすると、

  • 電卓を叩いた時のレスポンスが極めて大事
  • [C]・[AC]の挙動の違いを理解する
  • [M+]・[M-]・[MRC]を駆使する
  • [ = ] を押さなくても計算ができる場合があることを理解する

です。たとえば、 n = 20なデータの組 (x_i, y_i). i \in [1,n] の、

  • 総和
  • 二乗和
  • 積和
  • 平均
  • 分散
  • 共分散
  • 回帰係数の傾きの推定量
  • 回帰係数の切片の推定量
  • 相関係数

あたりをさらっと電卓で出せるようになると良いでしょう。慣れれば機械的に答えが出てしまいます。

細かく言えば、[=] を押さなくても計算ができる場合があることを理解するは、

i x_i y_i
1 3 4
2 7 8
3 5 6
4 1 2

とデータが与えられた時に積和: \sum{}x_i y_i を求めるとします。この時、

[3] [x] [4] [=] [M+]
[7] [x] [8] [=] [M+] 
[5] [x] [6] [=] [M+] 
[1] [x] [2] [=] [M+] 
[MRC]

と電卓を叩くのではなく、

[3] [x] [4] [M+]
[7] [x] [8] [M+] 
[5] [x] [6] [M+] 
[1] [x] [2] [M+] 
[MRC]

と叩く、ということです。素早く計算でき、かつ打鍵ミス低減 → 問題をたくさん解くことができる、に繋がります。このTipsはnが大きくなるにつれて効果が大きくなるでしょう。

おわりに

試験まで諦めずに勉強し、試験中も諦めなければなんとか合格できるはずです。Enjoy 統計学!

2級合格後の自分は?

準1級合格を目指して勉強しています。どうやら線形代数の知識をフル活用するらしく、絶賛苦しんでいる最中です。対称行列の2次形式を偏微分したり楽しい毎日を送っています。

アーカイ部

リンク

自問自答

  • なぜwiki ?
    • 更新しやすそう
  • wikiに何載せるの?
    • テキストベースで、コンサート毎のこれまでの演奏曲一覧
    • お知らせとか
    • 連絡先とか
    • リンク先とか
  • なぜdokuwiki ?
    • 誰でも更新できる ( 誰が更新するのかと言う問題。 更新されない情報サイト )
    • 構文が簡単そう
    • アクセス制御ができる
    • データベースを使用しない(テキストファイル)
  • なぜsakura の レンタルサーバー の liteプラン?
    • 安い
    • dokuwikiがインストールできそう
  • S3は何に使うの?
    • プログラムや音源を保管する
  • S3はwebサーバーじゃないけどアクセス制御どうするの?
  • 音源ファイルはでかい。ダウンロードされまくると料金がやばいのでは?
    • そこが一番の悩みどころ。
    • ダウンロードされまくった月のクレジット引き落としが怖いね
  • レン鯖の容量でかいプランにするのは?
    • そうすると年額がコンスタントに高い。
  • 全部AWSとか全部Azureで良いのでは?
    • アクセス制御のやり方がよくわからん。
      • cloudfrontやらaws lambdaやら Azure Active Directoryやらあるのは知っているが、ググってサクッと作るほど簡単ではなさそう&従量課金
  • Google Driveは?
    • Googleアカウントでアクセス制御ってのは、ちょいと面倒。全員Googleアカウント取得しないといけない。

計算

プログラム:: 11MB/1コンサート
 → 22MB/1年
 → 50年分だと → 1100MB → 1.1GB
 → 100年分だと → 2.2GB

音源:: 1.5GB/1コンサート(3時間)
 → 3GB/1年
 → 50年分だと → 150GB
 → 100年分だと → 300GB

統計学入門 p.65 問3.4 ブートストラップ(途中)

データ

data.x <- c(71,68,66,67,70,71,70,73,72,65,66)
data.y <- c(69,64,65,63,65,62,65,64,66,59,62)

相関係数

> cor(data.x, data.y)
[1] 0.5580547

ブートストラップ

11組のデータからランダムに11個復元抽出し相関係数を計算する、ような関数を作る。

bs <- function(x){
  bx <- sample(data.x,size = 11,replace = T)
  by <- sample(data.y,size = 11,replace = T)
  return( cor(bx,by) )
}

上の関数を10,000回繰り返す。

data.r <- sapply(1:10000,bs)

結果

par(mfrow=c(2,1))
hist(data.r,breaks = seq(-1,1,0.05), main="Histogram of correlation",freq = F,xlab="range of r")
lines(density(data.r), col = "orange", lwd = 2)
boxplot(data.r,horizontal = T)

f:id:axjack:20181224110122p:plain

考察

相関係数が0になることもあるよってことなのだろうか?ブートストラップ法について調べる必要がある。

カイ二乗分布をRで図示する

ソース

# df個のN(0,1)な確率変数の二乗和 
f <- function(df) sum( rnorm(n=df,m=0,sd =1)^2 )

# 繰り返し回数
N <- 10000;

# カイ二乗分布をN回計算してヒストグラムを書く
showHistOfChiSqrd <- function (df){
cs <- sapply(rep(df,N),f)
hist(cs,
     freq = FALSE
     ,main=sprintf("Histogram of chi-squared distribution;\n degree of freedom = %d",df) 
     ,xlab = ""
     )
}

実行結果

df = 1 の場合

showHistOfChiSqrd(1) f:id:axjack:20181223194855p:plain

df = 3 の場合

showHistOfChiSqrd(3) f:id:axjack:20181223195048p:plain

df = 5 の場合

showHistOfChiSqrd(5) f:id:axjack:20181223195102p:plain

df = 10 の場合

showHistOfChiSqrd(10) f:id:axjack:20181223195115p:plain

実行結果の感想

  • *1教科書の図とほぼ同じとなった
  • 自由度が異なると分布の形が大きく異なることがわかった
  • Rのfunctionの書き方がわかった
  • sapplyは便利だ
    • for文使わずに済む
    • for文使わない方がめちゃくちゃ早い

ソースコード補足

sapply関数

cs <- sapply(rep(df,N),f)

 cs <- c( f(df), f(df), ... ,f(df) )

と同じ。

例:

> f1 <- function(x) 3*x + 2 ;
> y <- sapply(1:10, f1)
> y
 [1]  5  8 11 14 17 20 23 26 29 32

*1:統計検定2級対応 統計学基礎

期待値の基本からモーメント母関数まで

基本

確率分布の総和は1


\sum f(x) = 1\\

期待値と原点周りのモーメント

以下は記法として覚えてしまうのが得策です。


E\bigl[  X \bigr]  = \sum x f(x)  = \mu \\
E\bigl[  X^1 \bigr]  = \sum x^1 f(x)  = \sum x f(x) = \mu_1 = \mu \\
E\bigl[  X^2 \bigr]  = \sum x^2 f(x)  = \mu_2 \\
\hspace{10pt} \vdots \\
E\bigl[  X^k \bigr]  = \sum x^k f(x)  = \mu_k \\

指数関数

マクローリン展開です。

\displaystyle exp(\theta) = e^{\theta} = \sum_{\theta=0}^{k} \frac {\theta^k} {k!} = 1 + \theta + \frac {\theta^2} {2!} + \dots + \frac {\theta^k} {k!} \\
\displaystyle exp(tx) = e^{tx} = \sum_{tx=0}^{k} \frac {(tx)^k} {k!} = 1 + tx + \frac {(tx)^2} {2!} + \dots + \frac {(tx)^k} {k!} \\
\displaystyle = 1 + tx + \bigl( \frac {t^2} {2!} \bigr) x^2 + \dots + \bigl( \frac {t^k} {k!} \bigr) x^k \\

期待値の性質


E\bigl[  \ 1 \ \bigr]  = \sum  1 \times f(x) =  1 \times \sum  f(x) = 1 \times 1 = 1   \\
E\bigl[  \ 0 \ \bigr]  = \sum  0 \times f(x) = 0 \times \sum f(x) = 0 \times 1 = 0  \\
E\bigl[  \ c \ \bigr]  = \sum  cf(x) = c\sum f(x) = c \times 1  = c \\
E\bigl[  tX \bigr]  = \sum (tx) \times f(x)  = t \sum x f(x) = t E\bigl[X\bigr] = t \mu \\
E\bigl[  g(X) \bigr]  = \sum g(x)  f(x)   \\

モーメント母関数

上記の式を結集すると、モーメント母関数が理解できてく。はず。。


M_X\bigl[ \ t \ \bigr] \equiv E\bigl[  e^{tX} \bigr]  = \sum e^{tx} f(x)  = \sum \Bigl( 1 +tx + \frac{ (tx)^2 } {2!} + \cdots + \frac{(tx)^k}{k!} \Bigr) f(x) \\
= \sum \Bigl( f(x) +txf(x) + \frac{ (tx)^2 } {2!}f(x) + \cdots + \frac{(tx)^k}{k!}f(x) \Bigr) \\
= \sum \Bigl( f(x) +t\bigl( xf(x) \bigr) + \frac{t^2} {2!} \bigl( x^2 f(x) \bigr) + \cdots + \frac{t^k }{k!} \bigl( x^k f(x) \bigl) \Bigr) \\
=  \sum f(x) + \sum t\bigl( xf(x) \bigr) + \sum \frac{t^2} {2!} \bigl( x^2 f(x) \bigr) + \cdots + \sum  \frac{t^k }{k!} \bigl( x^k f(x) \bigl)  \\
=  \sum f(x) + t \sum \bigl( xf(x) \bigr) + \frac{t^2} {2!}  \sum \bigl( x^2 f(x) \bigr) + \cdots + \frac{t^k }{k!} \sum \bigl( x^k f(x) \bigl)  \\
\displaystyle= 1 + t E\bigl[ X \bigr] +  \frac{t^2} {2!} E\bigl[ X^2 \bigr] + \dots + \frac{t^k }{k!} E\bigl[ X^k \bigr] \\
\displaystyle= 1 + t\mu_1 + \frac{t^2} {2!} \mu_2 + \dots + \frac{t^k} {k!} \mu_k

となるので、


\displaystyle \left.M_X\bigl[ \ t \ \bigr]' \right |_{t=0} =  \mu_1 \\
\displaystyle \left.M_X\bigl[ \ t \ \bigr]'' \right |_{t=0} =  \mu_2 \\
\hspace{10pt} \vdots \\
\displaystyle \left.M_X\bigl[ \ t \ \bigr]^{(k)} \right |_{t=0} =  \mu_k \

を得る。

統計検定2級 2018年6月 問4の2

2010年の輸出物価指数をp_0とすると、2011年の輸出物価指数p_1は変化率r_0を用いて


p_1 = p_0 (1+r_0)

と書ける。

以下同様に書き出すと、

p_2 = p_1(1+r_1)\\
p_3 = p_2(1+r_2)\\
p_4 = p_3(1+r_3)\\
p_5 = p_4(1+r_4)\\

の式が得られる。さて、前年からの変化率が常にrであるならば

 p_5 = 100

となるので、得られた式を下から上に掛けて代入していくと、

100 = p_5 = p_0\times\prod_{i=0}^{4}(1 + r_i )

となる。ところで、「変化率が常にrである」とは 1 + r_i 1+rと置き換えるに等しい。
したがって、

100 = p_5 = p_0\times\prod_{i=0}^{4} (1+r)

を得る。よって、p_0 = 89.5 を代入し、

 
100 = p_5 = 89.5\times\prod_{i=0}^{4} (1+r) \\
= 89.5\times(1+r)^5\\
\Leftrightarrow \frac{ 100 } {89.5} = ( 1 + r )^5\\
\Leftrightarrow  ( \frac{ 100 } {89.5} )^{\frac{1}{5}} =  1 + r \\
\Leftrightarrow ( \frac{ 100 } {89.5} )^{\frac{1}{5}} - 1 =  r \\

となる。答えは②である。