axjack's blog

### axjack is said to be an abbreviation for An eXistent JApanese Cool Klutz ###

母比率の信頼区間に含まれる2次不等式を解く

母比率の信頼区間

母比率 pの母集団からサイズnの標本を抽出する。このとき標本割合  \hat{p} = x / n について、 \hat{p} は近似的に平均p、分散  pq /n  正規分布 N(p,  pq /n ) に従う。ただし、 q = 1 - p である。したがって、 z = \frac{ 
  \hat{p} - p }  {   \sqrt{pq /n }  }  と標準化した z は 標準正規分布  N(0,1) に従う。

さて、確率 \rm{P}(  -z_0 <   z   \lt  z_0  )  =  1 - \alpha から不等式  -z_0 < z < z_0  を抜き出したものに z = \frac{ 
  \hat{p} - p }  {   \sqrt{pq /n }  }  の右辺を代入すると、p100\alpha/2%信頼区間

 \displaystyle  \hat{p} - z_0 \sqrt{  \frac{pq}{n}  }  \lt  p  \lt  \hat{p} +  z_0 \sqrt{  \frac{pq}{n}  }

と表される。例えば \alpha = 0.10 とすれば、  \hat{p} - 1.64 \sqrt{  \frac{pq}{n}  }  \lt  p  \lt  \hat{p} +  1.64  \sqrt{  \frac{pq}{n}  }   である。通常ここで p は未知であり不等式の左右の \sqrt{ \, \,  } にある pはnが大なるとき \hat{p} の一致性から  \frac{pq}{n}  = \frac{  \hat{p}(1-\hat{p} )  }{n}  と置き換えて、

 \displaystyle  \hat{p} - z_0 \sqrt{  \frac{  \hat{p}(1-\hat{p}  )}{n}  }  \lt  p  \lt  \hat{p} +  z_0 \sqrt{  \frac{\hat{p}(1-\hat{p})  }{n}  }

という公式が用いられる。

2次不等式を解く

それでは、  \frac{pq}{n}  = \frac{  \hat{p}(1-\hat{p} )  }{n}  を用いず
   \hat{p} - z_0 \sqrt{  \frac{pq}{n}  }  \lt  p  \lt  \hat{p} +  z_0 \sqrt{  \frac{pq}{n}  }
 p について解いてみる。以下、式変形。

式変形

   \hat{p} - z_0 \sqrt{  \frac{pq}{n}  }  \lt  p  \lt  \hat{p} +  z_0 \sqrt{  \frac{pq}{n}  }
  \iff     - z_0 \sqrt{  \frac{pq}{n}  }  \lt   p  - \hat{p}    \lt   +  z_0 \sqrt{  \frac{pq}{n}  }
  \iff     | p  - \hat{p} |   \lt    z_0 \sqrt{  \frac{pq}{n}  }
  \iff     | p  - \hat{p} |^2   \lt   \Bigr( z_0 \sqrt{  \frac{pq}{n}  }  \Bigl)^2
  \iff     p^2 - 2p\hat{p} + (\hat{p})^2   - \Bigr( z_0 \sqrt{  \frac{pq}{n}  }  \Bigl)^2    <     0
  \iff     p^2 - 2p\hat{p} + (\hat{p})^2   - (z_0)^2  \frac{pq}{n}      <     0
  \iff     np^2 - 2np\hat{p} + n(\hat{p})^2   - (z_0)^2 pq      <     0
  \iff     np^2 - 2np\hat{p} + n(\hat{p})^2   - (z_0)^2 p(1-p)      <     0
  \iff     np^2 - 2np\hat{p} + n(\hat{p})^2   - (z_0)^2 p  +  (z_0)^2p^2      <     0
  \iff     \Bigl(n + (z_0)^2\Bigr) p^2      +   \Bigl(  -2n\hat{p}  - (z_0)^2  \Bigr)p     + n(\hat{p})^2         <     0
  \iff     p^2      +   \Bigl(  \frac{   -2n\hat{p}  - (z_0)^2   }   { n + (z_0)^2    }  \Bigr)p     + \frac{   n(\hat{p})^2  }{{ n + (z_0)^2    } }         <     0
  \iff     \Bigl(  p   +   \frac{1}{2} (    \frac{-2n\hat{p}-(z_0)^2}{ n + (z_0)^2}  )  \Bigr)^2  -  \Bigl(  \frac{1}{2} (    \frac{-2n\hat{p}-(z_0)^2}{ n + (z_0)^2}  ) \Bigr)^2    + \frac{   n(\hat{p})^2  }{{ n + (z_0)^2    } }         <     0
  \iff     \Bigl(  p   +   \frac{1}{2} (    \frac{-2n\hat{p}-(z_0)^2}{ n + (z_0)^2}  )  \Bigr)^2    <  \frac{1}{4} \Bigl(  \frac{-2n\hat{p}-(z_0)^2}{ n + (z_0)^2} \Bigr)^2  -  \frac{   n(\hat{p})^2  }{{ n + (z_0)^2    } }
  \iff   p   +   \frac{1}{2} \Bigl(    \frac{-2n\hat{p}-(z_0)^2}{ n + (z_0)^2}  \Bigr)   <   \pm  \sqrt{    \frac{1}{4} \Bigl(  \frac{-2n\hat{p}-(z_0)^2}{ n + (z_0)^2} \Bigr)^2  -  \frac{   n(\hat{p})^2  }{{ n + (z_0)^2    } }  }
  \iff   p<  - \frac{1}{2} \Bigl(    \frac{-2n\hat{p}-(z_0)^2}{ n + (z_0)^2}  \Bigr)   \pm  \sqrt{    \frac{1}{4} \Bigl(  \frac{-2n\hat{p}-(z_0)^2}{ n + (z_0)^2} \Bigr)^2  -  \frac{   n(\hat{p})^2  }{{ n + (z_0)^2    } }  }


となる。

具体例で検証

統計学基礎のp.118の例9の数字を使って検証してみる。例9の主要な数字は、

標本サイズ n = 1200
標本比率  \hat{p} = 0.054 にて
母比率 p の95%信頼区間を求める。

である。ここで、 z_0 =  1.96 とする。

公式を用いる

  \hat{p} - z_0 \sqrt{  \frac{  \hat{p}(1-\hat{p})  }{n}  }  \lt  p  \lt  \hat{p} +  z_0 \sqrt{  \frac{  \hat{p}(1-\hat{p})  }{n}  }
なので、  0.054  \pm 1.96 \sqrt{ \frac{0.054(1-0.054)}{1200}  }   =  [0.04121184, 0.06678816 ]
となる。

2次不等式を解いた結果を用いる

    p<  - \frac{1}{2} \Bigl(    \frac{-2n\hat{p}-(z_0)^2}{ n + (z_0)^2}  \Bigr)   \pm  \sqrt{    \frac{1}{4} \Bigl(  \frac{-2n\hat{p}-(z_0)^2}{ n + (z_0)^2} \Bigr)^2  -  \frac{   n(\hat{p})^2  }{{ n + (z_0)^2    } }  }
なので、Rを用いて計算すると

n <- 1200
ph <- 0.054
z0 <- 1.96
A <- (-2*(n*ph) - (z0)^2)/(n+(z0)^2)
B <- (n*ph^2)/(n+z0^2)

c(-(1/2)*A - sqrt( (1/4)*A ^2 - B),-(1/2)*A + sqrt( (1/4)*A ^2 - B))

> c(-(1/2)*A - sqrt( (1/4)*A ^2 - B),-(1/2)*A + sqrt( (1/4)*A ^2 - B))
[1] 0.04257642 0.06827005

より、 [0.04257642,0.06827005 ]
となる。

2次元正規分布の確率密度関数

東京大学出版会『統計学入門』 の p.145 図7.5 2次元正規分布 について、与えられたパラメータから楕円群(等高線の式)を導出する。

パラメータ

\displaystyle \mu = \left[ \begin{array} {c} 55.24   \\  34.97  \end{array} \right] , \displaystyle \Sigma =  \left[ \begin{array} {cc} 210.54 &&  126.99\\126.99 && 119.68   \end{array} \right]

代入

 \det (\Sigma)と\Sigma^{-1}を計算すると、

 \det \Sigma = 9070.9671

 \sqrt{(2\pi)^k \rm det(\Sigma) } = 238.6748277

 \Sigma^{-1} = \left[ \begin{array} {cc} 0.013193742 &&  -0.013999609 \\-0.013999609 && 0.023210314   \end{array} \right]

となるので、確率密度関数に代入するとexpの中身は  \rm x = \left( \begin{array}{c} x \\ y  \end{array}   \right) として

 \displaystyle - \frac{1}{2} \left(  0.013193742(x - 55.24)^2 + 2(-0.013999609)(x-55.24)(y-34.97) + 0.023210134(y-34.97)^2 \right)


となる。ここでexpの中身を適当な定数c と置き、-200倍すると、

 \displaystyle  1.3193742(x - 55.24)^2  -2.7999218(x-55.24)(y-34.97) + 2.3210134(y-34.97)^2

となり、p.145にある楕円群の式とほぼ等しくなる。

AB = E ならば BA = Eをランクを用いて示す

チャート式シリーズ 大学教養 線形代数を買ってから、行列の構造、特に「ランク」の理解が深まりました。ということでタイトルの命題の証明です。

AB = E ならば BA = E

AもBもn次正方行列、Eはn次単位行列とします。
ここで、rankA = r ≦ n , rankB = s ≦ n とし、rankE = nです。

まず、基本行列Pを左からAに掛けた結果をPA = X とすると、
rankPA = rankA = r = rankX です。また、rankP = nです。

次に、PA = Xを用い、P(AB) = PE = P および (PA)B = XB を得、総じて XB = P を得ます。

さて、XB = P のランクについて考えると、右辺:rankP = nなので rankXB = nを得ます。
rankXB = n ということは、rankX = nかつrankB = n ということが分かります。

ここで、XはAをPを用いて階段化した行列であり、
なおかつrankX = nよりXは正則であることから、
X = Eを得ます。したがって、XB = P ⇔ EB = P ⇔ B = P です。

以上より、仮定はAB = Eだったので
AB = E ⇔ AP = E ⇔ P = A‪⁻¹‬ですので、
BA = PA = A‪⁻¹‬A = E となります。■

参考

行簡約行列をRで

pracmaのrrefを使って行簡約行列を出してみます。これで適当な行列を手計算で簡約化して答え合わせができますね。

ソース

# install.packages('pracma')
# library('pracma')

## 行ベクトルを4本
a1 <- c(1,2,0)
a2 <- c(2,4,0)
a3 <- c(0,1,3)
a4 <- c(1,3,3)

## 行列にする
M <- matrix(c(a1,a2,a3,a4),nrow = 3, ncol=4)

## 行列を表示
print(M)

## 行簡約行列を表示 
rref(M)

## 行列の階数を表示
Rank(M)

実行結果

> a1 <- c(1,2,0)
> a2 <- c(2,4,0)
> a3 <- c(0,1,3)
> a4 <- c(1,3,3)
> M <- matrix(c(a1,a2,a3,a4),nrow = 3, ncol=4)
> print(M)
     [,1] [,2] [,3] [,4]
[1,]    1    2    0    1
[2,]    2    4    1    3
[3,]    0    0    3    3
> Rank(M)
[1] 2
> rref(M)
     [,1] [,2] [,3] [,4]
[1,]    1    2    0    1
[2,]    0    0    1    1
[3,]    0    0    0    0
> 

update文

とある1レコードの値で本番のデータを全件更新してしまうというヤラカシをやってしまったので、次回は気をつける意を込めた記録です。 SQLcompile sql server onlineを使用します。

仕様

  • tbl1.val1をtbl2.val2へと更新する
  • 更新の条件
    • tbl1.idとtbl2.idを結合し、tbl2.val2 = 'foo'の時だけ更新する
    • tbl2.val2 <> 'foo'の時は更新しない

tbl1

f:id:axjack:20200417235435p:plain

tbl2

f:id:axjack:20200417235458p:plain

ということでこの場合、id = {10,30,80}が更新対象となります。

問題のコード(ヤラカシあり)

-- データ作成 ここから
create table tbl1  (
 id int primary key
  , val1 nvarchar(10) null
)
;

insert into tbl1 values
  (10,'a')
  ,(20,'b')
  ,(30,'c')
  ,(40,'d')
  ,(50,'e')
  ,(60,'f')
  ,(70,'g')
  ,(80,'h')
  ,(90,'i')
;

create table tbl2 (
 id int primary key
  , val2 nvarchar(10) null
  , constraint fk_id foreign key(id) references  tbl1
)
;

insert into tbl2 values
  (10,'foo')
  ,(30,'foo')
  ,(50,'baz')
  ,(60,'baz')
  ,(80,'foo')
;
-- データ作成 ここまで



--  一時テーブルに tbl1 のレコードを格納
select * into #t1 from tbl1
;


-- tbl1 更新前
select * from tbl1
;

-- 更新処理
update tbl1
set val1 = tbl2.val2
from #t1 
  inner join tbl2 
    on #t1.id = tbl2.id 
    and tbl2.val2 = 'foo'
;


-- tbl1 更新後
select * from tbl1
;

実行結果

上:更新前のtbl1, 下:更新後のtbl1なのですが、見ての通り残念な感じに更新されてしまいました。。

f:id:axjack:20200417234647p:plain

better なコード

★の箇所のように、updateで更新対象となるテーブルをinner join してあげるとinner join で抽出される結果通りに更新されます。

update tbl1
set val1 = tbl2.val2
from #t1 
  inner join tbl2 
    on #t1.id = tbl2.id 
    and tbl2.val2 = 'foo'
  inner join tbl1 on tbl1.id = #t1.id -- ★
;

better なコードの実行結果

仕様を満たした更新結果となりました。 f:id:axjack:20200417235104p:plain

まなび

更新対象のテーブルをちゃんとjoin しましょう。

カーネルは線型空間

示したいこと

線型空間V, W に対して線型写像  \displaystyle T:V \rightarrow Wが与えられているとする。
この時、カーネル \displaystyle \rm Ker \ T = \{ x \in V | T(x) = 0_w \in W  \}線型空間であることを示す。

証明

 \displaystyle  \forall x, y \in \rm Ker \ T および \displaystyle \forall a, b \in \mathbb{R} をそれぞれ取る。
すると、 \displaystyle ax+by \in V より、 \displaystyle  T(ax+by) = T(ax) + T(by) = aT(x) + bT(y) = a0_w + b0_w = 0_w + 0_w = 0_w \in W
となるので、Ker T の任意の元はベクトル和とスカラー倍に関して閉じていることが分かった。よってKer T は線型空間であることが示せた。

対角化

示したいこと

正方行列Aに対してR‪⁻¹‬AR=Λと対角化できるような正則行列Rが存在すると仮定する。この時、ΛはAの固有値を並べた対角行列であることを示そう。即ちΛの対角成分λi はAu=auを満たす固有値aであることを示せばよい。ここでu≠0とする。

証明

Au=auよりAu-au=0⇔(A-aI)u=0. 
さてA-aIが逆行列を持つと仮定すると、
(A-aI)‪⁻¹‬(A-aI)u=0⇔u=0となり仮定に反する。

ゆえにA-aIは特異行列であるから|A-aI|=0を満たす。

さて、|R‪⁻¹‬|と|R|を両側から掛け算すると、
|R‪⁻¹‬||A-aI||R|=0より
|R‪⁻¹‬(A-aI)R|=0から
|R‪⁻¹‬AR-aR‪⁻¹‬R|=0⇔|Λ-aI|=0となる。

Λは対角行列なので行列式を展開すると、
(λ1-a)(λ2-a)...(λn-a)=0より
a = λ1,λ2,...,λnとなるから
Aの固有値aは対角行列の対角成分λiに等しいことが示せた
□

参考

対角化された行列の対角成分は固有値 - 理数アラカルト -

集約関数

ちょっとgroup byと集約関数と仲良くする必要があったので練習してみた記録です。SQL FiddleのMS SQL Server 2017を使います。

その1

DDL

create table t (
  col1 int 
  ,col2 int
  ,col3 int
  ,col4 int
 )

insert into t values 
(1,1,1,0)
,(1,1,1,0)
,(1,1,1,0)
,(1,1,2,1)
,(1,1,2,0)
,(1,1,2,0)
,(1,1,3,0)
,(1,1,3,0)
,(1,1,3,0)
,(4,5,6,1)
,(4,5,6,-1)
,(5,5,6,1)
,(5,5,6,1)
,(6,5,6,0)
,(6,5,6,null) 

DML

-- --------------------------------------------------------------------------------
-- http://mickindex.sakura.ne.jp/database/celko/celko_tis.html
-- col1、col2、col3 の三列でグループ化したときに
-- col4 がすべて 0 であるような行を一意に取得せよ。
-- --------------------------------------------------------------------------------
select 
  col1,col2,col3
from 
  t
group by 
  col1,col2,col3
having 
  max(col4) = min(col4) -- group 内全てのcol4が同一な値である
  and min(col4) = 0 -- 最小値が0である
  and count(*) = count(col4)  -- col4はnullを含んでいない
;

補足

最小値の抑え込み

  and min(col4) = 0 -- 最小値が0である

がないと、

,(5,5,6,1)
,(5,5,6,1)
,(6,5,6,0)
,(6,5,6,null) 

が抽出されてしまう。

nullと集約関数

  • MAX
  • MIN

は中身がnullだとエラーになったり省略されたりする*1。なので、ISNULLcoalesceでnullを抑え込むのもあり。

その2

count(*)count(X)count(distinct(X))の違いをみてみます。なお、count(distinct(X))は奥が深い問題*2のようです。

DDL

create table t(
  grp char(1) null 
   , val nvarchar(10) null
)

insert into t values 
('A',null)
,('B','bbb')
,('B','bbb')
,('B','ccc')
,('C','ddd')
,('C','eee')
,('D','fff')
,('D',null)
,('D',null)

DML

select
  grp
  ,max(val) as max_val
  ,min(val) as min_val
  ,count(*) as count_aster
  ,count(val) as count_val
  ,count(distinct(val)) as count_distinct_val
from t
  group by grp

実行結果

grp max_val min_val count_aster count_val count_distinct_val
A (null) (null) 1 0 0
B ccc bbb 3 3 2
C eee ddd 2 2 2
D fff fff 3 1 1

*1:「警告 : NULL 値は集計またはその他の SET 演算で削除されました」が出たりする

*2:https://en.wikipedia.org/wiki/Count-distinct_problem

axjack is said to be an abbreviation for An eXistent JApanese Cool Klutz.