axjack's blog

axjack is said to be an abbreviation for An eXistent JApanese Cool Klutz.

多変量正規分布の条件付き期待値・条件付き分散

やること 『統計学』東京図書 p.147 練習問題 問5.1の[2]、多変量正規分布の条件付き期待値・条件付き分散を解きます。 問題 が平均ベクトル、分散共分散行列が正値対称行列 の時、X = xおよびZ = zを与えた下でのYの 条件付き期待値 条件付き分散 を求めよ…

sweep関数の使い方を忘れがちなので自分へのメモ

まとめ sweep関数の MARGIN = 1の時は i 行目のそれぞれの値に対してSTATSの i番目の値をFUNと二項演算する MARGIN = 2の時は j 列目のそれぞれの値に対してSTATSの j番目の値をFUNと二項演算する お気持ち 行平均の引き算のお気持ち sweepで1行目の行平均を…

雑だけどirisを機械学習する

まえがき Data Science: Machine Learningを受講しています。今までのR BasicsやVisualizationに比べて課題が多くてなかなか進まないです。8月中には完了させたいですね。 本題ですが、今回は「雑だけどirisを機械学習する」ということで、とりあえずcaret使…

2次元正規分布のデータから2通りの方法で回帰直線を引く

タイトルの通りです。 lmで単回帰直線 平均と分散共分散からE[Y|X=x] *1を計算 の2通りで回帰直線を引きます。 コード library(MASS) library(scales) options(digits = 3) # 平均 mx <- 10 my <- 22 # 分散 Sx <- sqrt(9) Sy <- sqrt(16) Sxy <- sqrt(9.6)…

標準誤差は統計量の標準偏差であることを確かめる

やること 離散型確率分布 X p 17 0.3 -1 0.7 に於いて、大きさn=100の標本を抽出する時、 和S の標本分布について、Sの平均、標準誤差 平均M の標本分布について、Mの平均、標準誤差 をそれぞれ 計算 モンテカルロ シミュレーション によりそれぞれ求める。 …

確率変数の取りうる値が2つの時の離散型確率分布の標準偏差を求める公式

結論 確率変数においてそれぞれ確率をとる時、標準偏差SD(X)は となる。ここで||は絶対値の記号である。 どこで見つけたか edXのprobabilityの教科書?であるChapter 14 Random variables | Introduction to Data Science や ここである。 *1 *2 計算例 離散…

Rで文字列→数値に変換する際、NAs introduced by coercionが出て困った時のtips

次のような変換を考えます。 "1名" → 1 "2名" → 2 "なし" → 0 "調査中" → NA これをdplyrのパイプの中でmutate( case_when(...) )を駆使して実行していたのですが、エラーとなってしまいました。 データフレーム(見栄えのためtibble) mydf <- tibble( 同居…

edXのHarvardX's Data Scienceを受講しています。

R

edXのHarvardX's Data Scieceとは? → HarvardX Data Science Professional Certificate | edX とりあえずR Basicsが終わってVisualizationのIntroの途中まで来ました。2年前も同じコースを受講したのですが、その時は途中でドロップアウトしてました・・・…

座標軸の回転

これなら分かる最適化数学のp.48にある座標軸の回転について、回転の式を導出してみます。 x成分の計算 と、 よりとなります。 y成分の計算 とよりとなります。 まとめると 以上より、、を行列形式にまとめて、 となります。

一元配置分散分析をRで実装する

手計算でもaovでも一元配置分散分析は出来るので、Rで実装してみようと思った次第です。F分布の累積分布を除いてほぼほぼベクトル演算?を使っています。データは水準の繰り返し数のトータルから適当に生成しています。統計学的観点はほぼ0です。 実装 # デ…

Rで線形計画法

R

lpSolve*1を使って線形計画法を解いてみた。理論は難しいから敬遠していたがソルバー使うと一瞬で解けて気持ち良い。 関数lpに渡すパラメータは以下の通り。第一パラメータは"max"か"min"。詳しいことはrdocumentationなどを参照。 f_obj : ベクトル。目的関…

母比率の信頼区間に含まれる2次不等式を解く

母比率の信頼区間 2次不等式を解く 式変形 具体例で検証 公式を用いる 2次不等式を解いた結果を用いる 参考 母比率の信頼区間 母比率 の母集団からサイズの標本を抽出する。このとき標本割合 について、 は近似的に平均、分散 の正規分布 に従う。ただし、…

2次元正規分布の確率密度関数

東京大学出版会『統計学入門』 の p.145 図7.5 2次元正規分布 について、与えられたパラメータから楕円群(等高線の式)を導出する。 パラメータ , 二次元正規分布の確率密度関数 代入 を計算すると、となるので、確率密度関数に代入するとexpの中身は として…

AB = E ならば BA = Eをランクを用いて示す

チャート式シリーズ 大学教養 線形代数を買ってから、行列の構造、特に「ランク」の理解が深まりました。ということでタイトルの命題の証明です。 AB = E ならば BA = E AもBもn次正方行列、Eはn次単位行列とします。 ここで、rankA = r ≦ n , rankB = s ≦ n…

行簡約行列をRで

pracmaのrrefを使って行簡約行列を出してみます。これで適当な行列を手計算で簡約化して答え合わせができますね。 ソース # install.packages('pracma') # library('pracma') ## 行ベクトルを4本 a1 <- c(1,2,0) a2 <- c(2,4,0) a3 <- c(0,1,3) a4 <- c(1,3,…

update文

SQL

とある1レコードの値で本番のデータを全件更新してしまうというヤラカシをやってしまったので、次回は気をつける意を込めた記録です。 SQLはcompile sql server onlineを使用します。 仕様 tbl1.val1をtbl2.val2へと更新する 更新の条件 tbl1.idとtbl2.idを…

カーネルは線型空間

示したいこと 線型空間V, W に対して線型写像 が与えられているとする。 この時、カーネルは線型空間であることを示す。 証明 およびをそれぞれ取る。 すると、より、 となるので、Ker T の任意の元はベクトル和とスカラー倍に関して閉じていることが分かっ…

対角化

示したいこと 正方行列Aに対してR‪⁻¹‬AR=Λと対角化できるような正則行列Rが存在すると仮定する。この時、ΛはAの固有値を並べた対角行列であることを示そう。即ちΛの対角成分λi はAu=auを満たす固有値aであることを示せばよい。ここでu≠0とする。 証明 Au=au…

集約関数

SQL

ちょっとgroup byと集約関数と仲良くする必要があったので練習してみた記録です。SQL FiddleのMS SQL Server 2017を使います。 その1 DDL create table t ( col1 int ,col2 int ,col3 int ,col4 int ) insert into t values (1,1,1,0) ,(1,1,1,0) ,(1,1,1,0…

コーシー分布

準備:微分の公式など コーシー分布の積分 を で積分すると、と置換し、 となる。

2019年大掃除大会まとめ

揃えるもの 液体固体 カビキラー バスマジックリン 油汚れマジックリン ← 心強い パイプユニッシュ いつもの台所洗剤 ゴシゴシ系 歯ブラシ メラミンスポンジ ← ボロボロになりがち ぞうきん ← 便利。乾拭き重要 スポンジ アルコール除菌ペーパー 防具 マスク…

『確率4万分の1、県の入札くじに6回連続当選「奇跡的」』なのかどうかを調べよう

www.asahi.com 動機 面白いニュースを見かけたので計算してみましたなポストです。記事のこの部分に注目しました。 6回のくじにはそれぞれ制限価格で入札した3~8の鑑定業者が参加した。6回連続で当たる確率を計算すると約4万分の1となる。 奇跡ってど…

2018年11月 統計検定2級 問9

この問題をなぜ解くのか 問題文の概要 解答 問(1) 問(2) この問題をなぜ解くのか 前にこんなこと統計検定であって確率検定ではないので、サイコロを7回投げる時2以下の目が出る確率を解けるようになってもなんだかなぁ統計検定2級に合格したので勉強法や…

超幾何分布

何度やっても忘れるのでブログに書いて覚えよう。 超幾何分布の確率質量関数 計算例 その1 男50人女50人から10人を選ぶ。10人のうち男3人女7人となる確率pは、超幾何分布を用いて その2 統計検定準一級2017年問10より引用。表の80人から30人を無作為抽出する…

連の検定(Runs Test for Detecting Non-randomness)

はじめに 連の検定についてよく分からなかったのでRで実装して確かめてみました。 連とは? 2値{A,B}を取る系列ABAABBAAABBBABがあった時、これをA | B | AA | BB | AAA | BBB | A | Bと連続する同じ値ごとに分割できるように見える。この時同じ文字または…

自由度調整済み決定係数を決定係数で表す

やること タイトルの通り式変形をするだけです。 式変形

2019年8月をワールドワイドに考える

はじめに UTCを考慮すると途端にわけわからなくなったので整理する。 UTCとは wikiで協定世界時 - Wikipediaをみませう。 UTCってプラマイいくつまであるの? 時間帯 (標準時) - WikipediaによるとからUTC-12からUTC+14まである。日本はUTC+9 2019年8月をUTC…

久保川『現代数理統計学の基礎』p.25 命題2.21 (平方変換)

やること 確率変数の確率密度関数をとする。 Xの平方変換に対して、Yの密度関数は? という命題について、式変形の行間を埋めます。 以下途中式 に対してであるからと無事式変形できる。

多変量解析法入門pp.52-53のテコ比の式変形

やること 多変量解析法入門p.52の式(4.35)あたりの式変形の行間を埋めてみる。 式変形 式(4.35)にて ここで、上式の第一項は 第二項は より、バラバラにした項を足して元に戻せば、 となる。ということで、の係数をテコ比と呼ぶ。式(4.36)

とりあえずアソシエーション分析する〜その3〜

手を動かして形は理解したっぽいので、今度こそ(?)仕組みを理解する編です。いきなり読むと分からなくなるので、何となくアソシエーション分析のパッケージ{arules}は動かせたけどイマイチ意味がわからないんだよなーという状態になった時に読むのをお勧め…

axjack is said to be an abbreviation for An eXistent JApanese Cool Klutz.