脳内ライブラリアン

脳内ライブラリアン

医療、統計、哲学、育児・教育、音楽など、学んだことを深めて還元するために。

MENU

カルバック-ライブラー情報量〜赤池情報量規準(AIC)までの概略をわかりやすく④【統計検定1級対策】

今回でAICについては最後です。前回までの記事で、経験分布関数を用いて平均対数尤度を推定する話を書きました。ここからは推定した尤度と平均対数尤度の差を考えていきます。

 

前回までの記事はこちら

カルバック-ライブラー情報量〜赤池情報量規準(AIC)までの概略③【統計検定1級対策】 - 脳内ライブラリアン

カルバック-ライブラー情報量〜赤池情報量規準(AIC)までの概略②【統計検定1級対策】 - 脳内ライブラリアン

カルバックライブラー情報量〜赤池情報量規準(AIC)までの概略①【統計検定1級対策】 - 脳内ライブラリアン

 

目次:

 

ここまでの流れの確認

まず2番目の記事までの流れはこうでした。

 

「真の確率分布と統計モデルが最も近くなる」

⇔「カルバックライブラー情報量が最小になる」

⇔「平均対数尤度を最大にする」

 

3番目の記事では

「平均対数尤度を推定したい」

→「経験分布関数を使って推定する」

 

ということをやりました。

 

そこで今回の記事では

「経験分布関数で推定した尤度を使って、平均対数尤度を最大にする統計モデルを探す」

ということが目的になります。

 

平均対数尤度と推定された尤度(=対数尤度)の差

前回の最後に書きましたが、経験分布関数から推定された尤度は、実は一般的な対数尤度×1/nとなります。

 

\frac{1}{n}\sum_{i=1}^{n}logp(x_i|\hat\theta)

 

n倍して考えると「対数尤度はn×平均対数尤度の推定量」と言えるので、以降はこれを考えます。

 

対数尤度はデータから得られた最尤推定値で最大値をとります。一方、n×平均対数尤度は真のパラメータで最大値をとります。

 

よって、差を図で表すとこうなります。 

f:id:medibook:20200814053540j:plain

このうち、データから算出することができるのは、最尤推定によるパラメータの数値\hat\thetaのみです。これは統計モデルの作り方とデータに依存して変化します。

 

モデルを色々変えてみて、対数尤度の最尤推定値において、平均対数尤度が最大になりそうな値=差がより小さい値を探していくことになります。

 

 で、問題となるこの差は対数尤度をL(\theta)とすると、真の確率分布Qを用いた平均対数尤度を使って

 

差=L(\hat\theta)-nE_Q[log(p(x_i|\hat\theta))]\\=L(\hat\theta)-nE_Q[L(\hat\theta)]

 

となります。

 

データによってばらつきが出るので、さらにこの期待値をとると

 

bias=E[L(\hat\theta)-nE_Q[L(\hat\theta)]]

 

となり、これをバイアスと呼びます。

 

バイアスを近似する

さっきの図に基づいて考えると

 

最大対数尤度-バイアス=n×平均対数尤度

 

の式が成り立つので、変形して

 

-n×平均対数尤度=ー最大対数尤度+バイアス

 

となります。

改めて係数も揃えつつ、AICの式と並べてみると

 

AIC=-2(最大対数尤度)+2(統計モデルの自由パラメータ数)

 

-2n×平均対数尤度=ー2最大対数尤度+2バイアス 

 

かなり似てきましたね。つまり右辺を最小とすれば、平均対数尤度は最大になるので条件を満たしているわけです。 この2つの式を比べると最大対数尤度の部分は同じなので、あとはバイアス項が統計モデルの自由パラメータ数で近似できることを示せばOKです。

 

 

ここからの細かい導出は下で紹介しています『統計思考の世界』 が分かりやすいのでご参照ください。

 

補足して無茶苦茶大まかな変形を書いておくと、平均対数尤度をL*(θ)、自由パラメータ数をkとすると

E[L(\hat\theta)]\approx L*(\theta_0)+\frac{k}{2}

E[nE_Q[L(\hat\theta)]]\approx L*(\theta_0)-\frac{k}{2}

であるので、上手いことバイアス=パラメータ数となります。

テーラー展開などを使うことで導出します。

 

あとここのブログも大変しっかりまとめて頂いています。今回の記事については参考にしました。

閃き- blog

 

というわけでざっとAIC導出の流れを書いてみましたが、すごい話ですね。真の確率分布なるものを、データから導出できないのにうまく推定していく、というのはちょっと現実での経験から真理を導き出すという点で、哲学的ですらあり、面白い方法です。良くこれを推定しようと思ったな、と赤池博士の天才ぶりに頭が下がるものですね。

 

参考文献:

最初の記事で紹介してます

多変量解析入門――線形から非線形へ

多変量解析入門――線形から非線形へ

  • 作者:小西 貞則
  • 発売日: 2010/01/27
  • メディア: 単行本(ソフトカバー)