axjack's blog

### axjack is said to be an abbreviation for An eXistent JApanese Cool Klutz ###

R

ecdf関数とstepfun関数

ecdf関数は経験累積分布関数を返す関数 stepfun関数はステップ関数・区分関数・単関数(?)を返す関数 d <- c(1:10)Fn <- ecdf(d)plot(Fn) knots(Fn) Gn <- stepfun(d,c(1,3,2,5,4,7,3,3,4,2,1)) plot(Gn)

統計学実践ワークブック:第13章 ノンパラメトリック法

Rで実装してみた。 p100~: ウィルコクソンの順位和検定 p102~: 並び替え検定 p102~: ウィルコクソンの符号付き順位和 gist.github.com

R勉強会 第5回 アウトプット用課題の問5,6を解く

qiita.com QittaのR言語記事を散策していたら@roadricefieldさんの面白い記事があったので、自分でも解いてみることにしました。 問5 関数 実行 コメント 問6 関数 実行 問5 極値を求める関数を作成する問題。 関数 extremum_detector <- function(d, k){ # …

コンプガチャ問題

おまけを10種類揃えるには? おまけが全部で25種類の、とあるお菓子がある 一個税込143円である 25種類中欲しいのは10種類 1種類目が当たる確率は 2種類目が当たる確率は … 10種類目が当たる確率は 一般に、確率のものを引き当てるために必要となる購入回数…

統計学実践ワークブック 第17章 回帰診断法

学習のまとめと例題のデータを使ってRで回帰診断図を出してみました。 学習のまとめ 回帰診断を使う理由 どんな手法を用いて診断するのか 回帰診断図 例1の回帰診断図 問17.1の回帰診断図 データの取得 ソースコード こちらも参考に 学習のまとめ 回帰診断を…

統計学実践ワークブック 第16章 重回帰分析 問16.2を通じて・重回帰分析のスクラッチ実装

重回帰分析は重要と聞くので、念入りに勉強した記録です。 問16.2 問題[1]の要約 解答 問題文のデータセットを使ってRで重回帰分析してみる データ取得 構造確認 重回帰分析の実行 重回帰分析をスクラッチ実装する 変数の準備 例の‪逆行列 各係数を求める 残…

統計学実践ワークブック 第12章 一般の分布に関する検定法 問12.2の[4] あてはまりのよさ について

やること 統計学実践ワークブック 第12章 一般の分布に関する検定法 問12.2の[4] あてはまりのよさ について考えてみる。 情報整理 得られたデータについて A) まとめる前 自由度:9 カイ二乗統計量:16.37 P-値:0.05954566 B) まとめた後 自由度:5 カイ二…

統計学実践ワークブック 第27章 AR(1)過程

ワークブックp.243にある、AR(1)過程を4つ描画します。 AR(1)過程とは 時点t = 1,2, ... , T について といったモデル。ここでははホワイトノイズ()です。 ソースコード # AR(1)過程を生成する genAR1 <- function(Y,Y_1,constant,phi_1){ Y[1] <- Y_1 for …

統計学実践ワークブック 第20章 分散分析と実験計画法

# 統計学実践ワークブック #### # 第20章 分散分析と実験計画法 #### # pp.167-172 # 参考 # https://www1.doshisha.ac.jp/~mjin/R/Chap_13/13.html # [p.167]表20.1 #### A1 <- c(9.7,8.7,10.2,11.3,11.2,11.7) A2 <- c(9.8,11.8,13.1,10.9,11.3,10.3) A3 <…

正規分布と適合度検定

適合度検定 :: 株式会社アイスタット|統計分析研究所より「適合度の検定(正規性)の結果」をRにて計算してみる。 # パラメータ#### # 平均 m1 <- 64.5 # 標準偏差 sd1 <- 13.41 # 度数の総和 n <- 40 # 関数 #### # 区間a<x<bにおける標準正規分布に従うXの確率、を返す関数 f <- function(l,h){ pnorm(h,m1,sd1) - pnorm(l,m1,sd1) } # データ # 観測値:observed #### c(2,4,7,13,10,3,1) -> obs # 期待度数expected #### n *</x<bにおける標準正規分布に従うxの確率、を返す関数>…

ポアソン分布と適合度検定

準1級 例題/解説 の問2より。 ある地域における1日の死亡者数の集計結果表 1日の死亡者数Xがパラメータλのポアソン分布に従うと仮定する。ある日の死亡者数が3人である確率は? に於いて、λ=3を代入すればよい。 同分布を仮定した時、E[X2] とλの関係は?…

Rで階層的クラスタリング

あけましておめでとうございます今年も統計学とRの勉強を継続します。 ということで、いつもの通り(?)Yuyaさんの動画にて階層的クラスタリングを見たので、Rを使ってクラスタリングしてみます。 www.youtube.com コード # データの準備 dd <- data.frame( ht…

データサイエンス100本ノックをRでやってみた

R

github.com 1日1~2時間×1週間ぐらいで終えました。 感想 tidyverseに感謝 日付の計算はstrptimeよりlubridate使った方が簡単 inner_joinはbyを指定しないときnatural joinになって便利 正規表現を使う問題はstr_subやstr_detectを用いても代替可能(問題の趣…

sweep関数の使い方を忘れがちなので自分へのメモ

まとめ sweep関数の MARGIN = 1の時は i 行目のそれぞれの値に対してSTATSの i番目の値をFUNと二項演算する MARGIN = 2の時は j 列目のそれぞれの値に対してSTATSの j番目の値をFUNと二項演算する お気持ち 行平均の引き算のお気持ち sweepで1行目の行平均を…

雑だけどirisを機械学習する

R

まえがき Data Science: Machine Learningを受講しています。今までのR BasicsやVisualizationに比べて課題が多くてなかなか進まないです。8月中には完了させたいですね。 本題ですが、今回は「雑だけどirisを機械学習する」ということで、とりあえずcaret使…

2次元正規分布のデータから2通りの方法で回帰直線を引く

タイトルの通りです。 lmで単回帰直線 平均と分散共分散からE[Y|X=x] *1を計算 の2通りで回帰直線を引きます。 コード library(MASS) library(scales) options(digits = 3) # 平均 mx <- 10 my <- 22 # 分散 Sx <- sqrt(9) Sy <- sqrt(16) Sxy <- sqrt(9.6)…

標準誤差は統計量の標準偏差であることを確かめる

やること 離散型確率分布 X p 17 0.3 -1 0.7 に於いて、大きさn=100の標本を抽出する時、 和S の標本分布について、Sの平均、標準誤差 平均M の標本分布について、Mの平均、標準誤差 をそれぞれ 計算 モンテカルロ シミュレーション によりそれぞれ求める。 …

Rで文字列→数値に変換する際、NAs introduced by coercionが出て困った時のtips

R

次のような変換を考えます。 "1名" → 1 "2名" → 2 "なし" → 0 "調査中" → NA これをdplyrのパイプの中でmutate( case_when(...) )を駆使して実行していたのですが、エラーとなってしまいました。 データフレーム(見栄えのためtibble) mydf <- tibble( 同居…

edXのHarvardX's Data Scienceを受講しています。

R

edXのHarvardX's Data Scieceとは? → HarvardX Data Science Professional Certificate | edX とりあえずR Basicsが終わってVisualizationのIntroの途中まで来ました。2年前も同じコースを受講したのですが、その時は途中でドロップアウトしてました・・・…

一元配置分散分析をRで実装する

手計算でもaovでも一元配置分散分析は出来るので、Rで実装してみようと思った次第です。F分布の累積分布を除いてほぼほぼベクトル演算?を使っています。データは水準の繰り返し数のトータルから適当に生成しています。統計学的観点はほぼ0です。 実装 # デ…

Rで線形計画法

R

lpSolve*1を使って線形計画法を解いてみた。理論は難しいから敬遠していたがソルバー使うと一瞬で解けて気持ち良い。 関数lpに渡すパラメータは以下の通り。第一パラメータは"max"か"min"。詳しいことはrdocumentationなどを参照。 f_obj : ベクトル。目的関…

母比率の信頼区間に含まれる2次不等式を解く

母比率の信頼区間 2次不等式を解く 式変形 具体例で検証 公式を用いる 2次不等式を解いた結果を用いる 参考 母比率の信頼区間 母比率 の母集団からサイズの標本を抽出する。このとき標本割合 について、 は近似的に平均、分散 の正規分布 に従う。ただし、…

行簡約行列をRで

pracmaのrrefを使って行簡約行列を出してみます。これで適当な行列を手計算で簡約化して答え合わせができますね。 ソース # install.packages('pracma') # library('pracma') ## 行ベクトルを4本 a1 <- c(1,2,0) a2 <- c(2,4,0) a3 <- c(0,1,3) a4 <- c(1,3,…

『確率4万分の1、県の入札くじに6回連続当選「奇跡的」』なのかどうかを調べよう

www.asahi.com 動機 面白いニュースを見かけたので計算してみましたなポストです。記事のこの部分に注目しました。 6回のくじにはそれぞれ制限価格で入札した3~8の鑑定業者が参加した。6回連続で当たる確率を計算すると約4万分の1となる。 奇跡ってど…

超幾何分布

何度やっても忘れるのでブログに書いて覚えよう。 超幾何分布の確率質量関数 計算例 その1 男50人女50人から10人を選ぶ。10人のうち男3人女7人となる確率pは、超幾何分布を用いて その2 統計検定準一級2017年問10より引用。表の80人から30人を無作為抽出する…

連の検定(Runs Test for Detecting Non-randomness)

はじめに 連の検定についてよく分からなかったのでRで実装して確かめてみました。 連とは? 2値{A,B}を取る系列ABAABBAAABBBABがあった時、これをA | B | AA | BB | AAA | BBB | A | Bと連続する同じ値ごとに分割できるように見える。この時同じ文字または…

重回帰分析をRで

やること ソースコード 結果の確認 (1)回帰式 (2)自由度調整済み寄与率 (3)同じ地区で広さ=70平米, 築年数=10年, 価格=5.8千万円の提示は妥当か やること 永田『多変量解析法入門』(以下参考書)よりp.2のデータをもとに重回帰分析を行う。 ソースコード # デ…

初期値1から始めたニュートン法による平方根の近似値計算は、7回ほど反復計算しておけば大丈夫そうです。 

はじめに ニュートン法による平方根の近似 例 結論 コード 結果確認 要約統計量 箱ひげ図 おわりに はじめに 今日で令和元年ゴールデンウィークも無事終了です。 前回に引き続きニュートン法で平方根を求めてみました。今回は、N = [1,1000] の範囲でニュー…

ニュートン法で平方根の値を求める

R

きっかけ 電卓のルートってどうやって求めるんだっけ? → たぶんニュートン法だろうなぁ。ということで、Rで簡単に実装して計算してみました。 実装 ニュートン法 fnewton <- function(xn=1,p=2,a=2){ return ( xn - ( xn^p - a )/( p * ((xn)^(p-1)) ) ) } …

ggplot, geom_point, facet_gridの練習

R

はじめに ggplotやqplotを日々練習しています。ggplot, geom_point, facet_gridを組み合わせると、 グラフ内側のx軸(量的) グラフ内側のy軸(量的) グラフ外側の横側(質的) グラフ外側の上側(質的) 点の色(質的・量的) のように5変数くらい同時に、割と分か…

axjack is said to be an abbreviation for An eXistent JApanese Cool Klutz.