緑本(データ解析のための統計モデリング入門)読了(1周目)
一貫した例で非常にわかりやすく、線形モデル(LM)→一般化線形モデル(GLM)→混合一般化線形モデル(GLMM)→階層ベイズモデル(H-GLMM)を解説している。
こっちはPRMLと違って目的意識がはっきりしており、非常にわかりやすかったので、読む前と後での変わった視点を列挙します。
勉強したこと
離散・カウントデータはポワソン分布か二項分布か負二項分布(p.165)が普通
ポワソンは上限なし、二項分布は上限あり。
連続データは正規分布かガンマ分布が普通
ガンマ分布は下限0。正規分布は2自由度。
割算値の統計モデリングは二項分布+ロジスティック回帰で可能
p.130
交互作用は交互作用の説明変数を2次で突っ込む
p.127
分散の逸脱から分布に従っていそうかを判定することができる
応答変数yのモデリング(GLM, GLMM, H-GLMM)
x->yの予測の時に、
- y=f(x), fは線形関数、とモデリングするとLM
- y=exp(f(x)), fは線形関数、とモデリングするとGLM
- y=exp(f(x)+r_i), r_iはパラメータsに特徴づけられる確率変数、sは定数、とモデリングするとGLMM
- y=exp(f(x)+r_i), r_iはパラメータsに特徴づけられる確率変数、sは確率変数、とモデリングするとH-GLMM
GLMMを使うかは、過分散と局所的変動の有無と、観測されなかった原因不明な個体差と場所差の有無で判断
過分散(p.148), 局所的変動(逆に大局的な変動GLMの変数で十分)、どう原因不明かはp.151(反復と擬似反復の基準p.163)
フルモデル推定はナンセンス
推定自由度は低く。 p.155
GLMは分布を混ぜあわせてるから変なモデリングができている
p.157
H-GLMMでは無条件分布や恣意的事前分布を葉としてDAGが描ける
expは負にならないのでカウントデータだと特に便利
AICモデル選択方法
前: AICのモデル選択は、今まではぶっちゃけよくわからない指標で、本当に実際使うべきなのかなあ
後: fitnessではなく、モデルの予測性能で評価するから偉い
とりあえず図にして第0直感を得るの大事
Rグラフィクスみたいなのを読むべきかな
箱ひげ図は情報が多くて強い
mean, stdだけだと心もとない
対数リンク関数は効果が解釈しやすい
効果が掛け算になる
ロジットリンク関数は
効果がオッズになる(p.125)
分布によってカノニカルなリンク関数が決まっている
MCMC: メトロポリス法
-確率探索+尤度が小さくなってもr=L(q新)/L(q)の確率でも更新する、というだけで、定常分布が事後分布となる
無条件事前分布には、広い正規分布(定義域[-∞, ∞])か、区間を区切った一様分布(定義域有限)を使う
階層ベイズモデルは、MCMCで推定
階層ベイズモデルの空間相関は、r_iに隣接項に依存する正規分布を設定
再帰的になるがなんとかなる, p.246
空間相関は欠損データがある場合の生成モデルに強い
そりゃね
データの変数変換して回帰・ANOVAは話にならない
それは本当に正規分布になりますか