情報論的学習理論1 | moskomule log

情報論的学習理論1

情報論的学習理論では情報論の立場から学習理論を扱う.

パラメータの推定

確率モデルを以下のように表す.

\[\mathscr{P}:=\{p(X^n;\theta);\theta\in\Theta\}\]

ただし$p(X^n;\theta)$は確率密度函数がパラメータ$\theta$が決定することによって(ひとつに)定められることを示す.条件付き確率は$p(X^n|w)$など$|$を用いる.また$X^n=(X_0,\ldots,X_n)$は確率変数列であり,観測されたデータ列$x^n=(x_0,\ldots,x_n)$とは区別される(つまり$x\mathop{\sim}\limits^{\text{i.i.d.}} p(X;\theta)$).$\Theta$はパラメータ空間を指す.

パラメータ推定手法は$x^n$が与えられたときに$\theta$を推測する.

最尤推定法

最尤推定法では尤度関数$\mathcal{L}(\theta):=p(x^n;\theta)=\prod_i p(x_i; \theta)$を最大とするような$\theta$を求める.このような$\hat{\theta}$は$\hat{\theta}(x_n)=\mathop{\text{argmax}}\limits_{\theta}\ln p(x^n;\theta)$である.

最尤推定は以下のふたつの点においてすぐれている.

  • 最尤推定量の一致性

ある正則条件の下で任意の$\epsilon>0$に対して

\[\lim_{n\to\infty}\text{Prob}[||\hat{\theta}-\theta||_2>\epsilon]=0\]

  • 最尤推定量の漸近正規性,有効性

中心極限定理が成立するようなモデルのクラスに対して以下が成り立つ.

\[\sqrt{n}(\hat{\theta}(x^n)-\theta)\rightsquigarrow\mathcal{N}(0,I^{=1}(\theta))\]

ただし$\theta$は真の分布が$q(X)$のときに$q(X)=p(x;\theta)$となるように$p$を指定する$\theta$.$I(\theta)$はフィッシャー情報行列で$i,j$成分は以下で与えられる1

\[\lim_{n\to\infty}\frac{1}{n}\mathbb{E}_{\theta}[-\frac{\partial^2\ln p(x^n;\theta)}{\partial \theta_i\partial \theta_j}]\]

また$y^n\rightsquigarrow y$は$\{y_0,\ldots,y_n\}$の確率分布が真の確率分布に法則収束することを指す(充分大きな$n$で分布が一致する意味).

さらに,特に$\hat{\theta}$が不偏で,つまり$\mathbb{E}_{\theta}[\hat{\theta}(x_n)]=\theta$の時,分散はCramel-Raoの下限に達する($\Sigma-I^{-1}(\theta)\geq 0$).

MAP推定量

最尤推定量では$\theta$は一つの値であったが,これが確率分布から生成されていると考えたらどうだろうか.このように考えたとき$p(\theta)$を事前分布と呼ぶ.事後分布を

\[p(\theta|x^n)=\frac{p(x^n;\theta)p(\theta)}{\int p(x^n;\theta)p(\theta) d\theta}\]

と定める.そうしてMAP推定量を

\[\hat{\theta}_{\text{MAP}}:=\mathop{\text{argmax}}\limits_{\theta}p(\theta|x^n)\]

と定義する.

\[\ln p(\theta|x^n)=\ln p(x^n;\theta)+\ln p(\theta)+C\]

右辺第二項がなければ最尤推定量のときと変わらない.この$\ln p(\theta)$は従って正規化項として作用する.特に$p(\theta)\propto \exp(-\lambda f(\theta))$として

  • $f(\theta)=||\theta||_1$のとき$p(\theta)$をLaplace分布
  • $f(\theta)=||\theta||_2$のとき$p(\theta)$をGauss分布

Bayse推定量

ベイズ推定量を

\[\hat{\theta}_{\text{Bayse}}:=\int\theta p(\theta|x^n)d\theta\]

により定める.


  1. 個人的には$I$は単位行列に予約されているので使いたくないが,他でも見られるので一般的の使い方なのかもしれない.単位行列には$\mathbf{I}$などを使うのがよいのだろうか. [return]
comments powered by Disqus