axjack's blog

axjack is said to be an abbreviation for An eXistent JApanese Cool Klutz.

2019年6月 統計検定準一級 問8

問題文

リンクが切れていないなら問題文を参照。

解く時の気持ち

Lassoのことをチョット知っているぐらいのお気持ちで、
機械学習ガチ勢ではなく「統計検定準1級目指してるけど機械学習よくわからん」なスタンスです。

問題の大雑把な概要

  • 中性子の月次カウントデータ217点が与えられている(  \displaystyle y_i )
  • Fused Lasso を用いて \displaystyle y_i を平滑化した実数列(  \displaystyle \beta_i ) を生成する。
    • Fused Lasso:  \displaystyle \hat{\beta}  = \arg \underset{\beta \in \mathbb{R}^{217} }\min \frac{1}{2} \sum_{i=1}^{217}{(y_i-\beta_i )}^2 + \lambda \sum_{i=1}^{216}{ | \beta_{i+1} - \beta_i  | }
  • 小問〔1〕:
    •  \lambda = 500 の場合にFused Lassoで平滑化した結果を表す図を選ぶ。
  • 小問〔2〕:
    • 図が与えられているので適切な平滑化手法(Fused Lasso) を選ぶ。

小問〔1〕:

Lassoは

  • 罰則項  \displaystyle \lambda \sum | \cdots | の 各 | \cdots | を、0にしたりしなかったりするいい感じの回帰分析。
  • λを大きくすると0になる各 | \cdots | は多くなり、λが小さかったら0になる各 | \cdots | は少なくなる。

という考えのもと小問〔1〕を見つめる。

ところで今回の \betaは通常のLassoの回帰係数ではなく「 \displaystyle y_i を平滑化した実数列(  \displaystyle \beta_i ) 」ということを念頭におくと、得られるβはyにほぼほぼ近いがいい感じに平滑化されているものだと考えることができる。
また、罰則項の中身が \beta_{i+1} - \beta_i ということは、第i+1項と第i項の差を表している。ということで、

  •  | \beta_{i+1} - \beta_i |  = 0 ならば隣接する項の差が0 ⇔ グラフの横軸に平行

と解釈できる。従って、λ=500よりFused Lassoで得られるβは、0になる | \beta_{i+1} - \beta_i | が多い→横軸に平行な線が多い。

と考えて、答えは4となる。

小問〔2〕:

Lassoの問題なので、

  • 罰則項はきっと  \displaystyle \lambda \sum | \cdots | の形をしているであろう
  • 誤差項は2乗誤差だよねきっと
  • 平滑化と言っているし誤差項の絶対値の中身は、差の形になっている

を踏まえて → 4,5 に絞る。

次に、4と5の違いを考えると

  • 4は
    •  \beta_{i+2} - 2\beta_{i+1} + \beta_{i}  = ( \beta_{i+2} - \beta_{i+1} )- (\beta_{i+1} - \beta_{i})
    • βの3項間の傾きについて述べている。
  • 5は
    •  \beta_{i+3} - 3\beta_{i+2} + 3\beta_{i+1} -\beta_{i}  = \bigl( (\beta_{i+3} - \beta_{i+2}) - (\beta_{i+2} - \beta_{i+1})\bigr)  - \bigl( (\beta_{i+2} - \beta_{i+1}) - (\beta_{i+1} - \beta_{i})\bigr)
    • βの4項間の傾きについて述べている。


となることから、Lassoで得られたβによる傾き(  \beta_{i+1} - \beta_{i} )が3点の間で等しくなりがちな選択肢4が図に適していそうである。
5の場合は \displaystyle \sum | \cdots | の中のパラメータの数が選択肢4よりは複雑なので図ほどシンプルな曲線は描けずもう少し滑らかとなるであろう。

axjack is said to be an abbreviation for An eXistent JApanese Cool Klutz.