axjack's blog

### axjack is said to be an abbreviation for An eXistent JApanese Cool Klutz ###

アーカイ部

リンク

自問自答

  • なぜwiki ?
    • 更新しやすそう
  • wikiに何載せるの?
    • テキストベースで、コンサート毎のこれまでの演奏曲一覧
    • お知らせとか
    • 連絡先とか
    • リンク先とか
  • なぜdokuwiki ?
    • 誰でも更新できる ( 誰が更新するのかと言う問題。 更新されない情報サイト )
    • 構文が簡単そう
    • アクセス制御ができる
    • データベースを使用しない(テキストファイル)
  • なぜsakura の レンタルサーバー の liteプラン?
    • 安い
    • dokuwikiがインストールできそう
  • S3は何に使うの?
    • プログラムや音源を保管する
  • S3はwebサーバーじゃないけどアクセス制御どうするの?
  • 音源ファイルはでかい。ダウンロードされまくると料金がやばいのでは?
    • そこが一番の悩みどころ。
    • ダウンロードされまくった月のクレジット引き落としが怖いね
  • レン鯖の容量でかいプランにするのは?
    • そうすると年額がコンスタントに高い。
  • 全部AWSとか全部Azureで良いのでは?
    • アクセス制御のやり方がよくわからん。
      • cloudfrontやらaws lambdaやら Azure Active Directoryやらあるのは知っているが、ググってサクッと作るほど簡単ではなさそう&従量課金
  • Google Driveは?
    • Googleアカウントでアクセス制御ってのは、ちょいと面倒。全員Googleアカウント取得しないといけない。

計算

プログラム:: 11MB/1コンサート
 → 22MB/1年
 → 50年分だと → 1100MB → 1.1GB
 → 100年分だと → 2.2GB

音源:: 1.5GB/1コンサート(3時間)
 → 3GB/1年
 → 50年分だと → 150GB
 → 100年分だと → 300GB

統計学入門 p.65 問3.4 ブートストラップ(途中)

データ

data.x <- c(71,68,66,67,70,71,70,73,72,65,66)
data.y <- c(69,64,65,63,65,62,65,64,66,59,62)

相関係数

> cor(data.x, data.y)
[1] 0.5580547

ブートストラップ

11組のデータからランダムに11個復元抽出し相関係数を計算する、ような関数を作る。

bs <- function(x){
  bx <- sample(data.x,size = 11,replace = T)
  by <- sample(data.y,size = 11,replace = T)
  return( cor(bx,by) )
}

上の関数を10,000回繰り返す。

data.r <- sapply(1:10000,bs)

結果

par(mfrow=c(2,1))
hist(data.r,breaks = seq(-1,1,0.05), main="Histogram of correlation",freq = F,xlab="range of r")
lines(density(data.r), col = "orange", lwd = 2)
boxplot(data.r,horizontal = T)

f:id:axjack:20181224110122p:plain

考察

相関係数が0になることもあるよってことなのだろうか?ブートストラップ法について調べる必要がある。

統計検定2級 2018年6月 問4の2

2010年の輸出物価指数をp_0とすると、2011年の輸出物価指数p_1は変化率r_0を用いて


p_1 = p_0 (1+r_0)

と書ける。

以下同様に書き出すと、

p_2 = p_1(1+r_1)\\
p_3 = p_2(1+r_2)\\
p_4 = p_3(1+r_3)\\
p_5 = p_4(1+r_4)\\

の式が得られる。さて、前年からの変化率が常にrであるならば

 p_5 = 100

となるので、得られた式を下から上に掛けて代入していくと、

100 = p_5 = p_0\times\prod_{i=0}^{4}(1 + r_i )

となる。ところで、「変化率が常にrである」とは 1 + r_i 1+rと置き換えるに等しい。
したがって、

100 = p_5 = p_0\times\prod_{i=0}^{4} (1+r)

を得る。よって、p_0 = 89.5 を代入し、

 
100 = p_5 = 89.5\times\prod_{i=0}^{4} (1+r) \\
= 89.5\times(1+r)^5\\
\Leftrightarrow \frac{ 100 } {89.5} = ( 1 + r )^5\\
\Leftrightarrow  ( \frac{ 100 } {89.5} )^{\frac{1}{5}} =  1 + r \\
\Leftrightarrow ( \frac{ 100 } {89.5} )^{\frac{1}{5}} - 1 =  r \\

となる。答えは②である。

統計検定2級 2018年6月 問8の2

問題

ある世帯の毎年6月に於ける電気料金は、平均4000円、標準偏差500円の独立同一正規分布で近似される。ある年に於いて、6月の電気料金がその前年の6月の電気料金より800円以上高くなる確率は?

考え方

情報整理

  • μ = 4000
  • σ = 500
  • Xi = 任意の年の6月の電気料金を表す確率変数
  • E[Xi] = μ
  • V[Xi] = σ2
  • 今年6月の電気料金:X1
  • 前年6月の電気料金:X2

求めるもの

題意を式で書くとP(X1-X2 ≧ 800)である。

そこで、まずP(X1-X2 ≧ 800) を計算するために必要な、X1-X2が従う分布のパラメータ(期待値・分散)を求め、最終的に確率を計算する。

計算

X1-X2の期待値・分散を求めると、

E[X1-X2] = E[X1] - E[X2] = μ - μ = 0

V[X1-X2] = V[X1] + V[X2] - 2Cov[X1,X2]

ここで、

Cov[X1,X2] = E[X1X2] - E[X1]E[X2]

であるが、X1とX2は独立なのでE[X1X2]=E[X1]E[X2]である。ゆえに、Cov[X1,X2] = 0

よって、

V[X1-X2] 
= V[X1] + V[X2] - 2Cov[X1,X2]
= V[X1] + V[X2] - 2×0
= V[X1] + V[X2] - 0
= V[X1] + V[X2] 
= σ^2+ σ^2 
= 2σ^2

結論

計算結果より、X1-X2が従う分布のパラメータ(期待値・分散)は、

  • 期待値:0
  • 分散:2σ2

となるので、X1-X2はN(0,2σ2)に従うと書ける。

以上を用いて P( X1-X2 ≧ 800 )を計算すると、

P( X1-X2 ≧ 800 )
  ここで、
  Z = ( (X1-X2)-0 ) / √(2σ^2)
  と標準化すると
= P( Z ≧ ( 800-0 ) / √(2σ^2) )
= P( Z ≧ 800 / (σ√2) )
= P( Z ≧ 800 / (500√2) )
= P( Z ≧ 1.131...)
  標準正規分布の上側確率表より
= 0.129

よって、ある年に於いて、6月の電気料金がその前年の6月の電気料金より800円以上高くなる確率は0.129である。

参照

統計学基礎 p95 練習問題 問2.2 の解き方を記録しておく

統計学基礎」とはいわゆる統計検定2級の教科書である。その中に掲載されている、「航空機の運行中止の例(例3)を用いて次の確率を求めよ。以下略」を、ベイズの定理を使って解いた。

教科書の問題は何度も解いているものの、ベイズの定理の問題だけは頭に入ってこないので、何となくブログにでも書いて解法を定着させようという考えのもと、以下を記す。

結論としては、以下のように図を書いて仕舞えば解けることが分かった。要するに樹形図である。

1 ← 全ての事象が起きる確率
┣故障発生→0.01
┃┣運行継続→1-P(A)
┃┗運行中止→P(A)
┃ ┣原因1→P(A∩H1)
┃ ┣原因2→P(A∩H2)
┃ ┣原因3→P(A∩H3)
┃ ┣原因4→P(A∩H4)
┃ ┣原因5→P(A∩H5)
┃ ┣原因6→P(A∩H6)
┃ ┗原因7→P(A∩H7)
┗故障未発生→運行継続→0.99

以下、問題の解き方を記録しておく。

  • (1)「故障発生」かつ「A∩H5」となる確率を計算する。従って0.01×P(A∩H5)をベイズの定理を使って解く。
  • (2)P(H5|A)をベイズの定理に基づいて計算する。運行中止の中での話なので故障発生は気にしなくて良い。
  • (3)故障発生が発生した時は、運行中止と運行継続との2状態どちらか一方となる。問われているのは運行継続の方。従って1-P(A)を計算する。
  • (4)運行中止にならないのは、「故障未発生の時」または「故障発生かつ運行継続の時」である。従って、0.99 + 0.01 × (1 - P(A) )を計算する。
axjack is said to be an abbreviation for An eXistent JApanese Cool Klutz.