(pdf版本:30September2019)

2-6:

(1)根据定义,极大似然估计应有:

argmax p(x|\mu,\sigma^2)=L(\mu,\sigma^2)=\prod^n_{i=1}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{1}{2\sigma^2}(x^{(i)}-\mu)^2)

因此,

ln L \propto \sum^n_{i=1}(x^{(i)}-\mu)^2

对其关于\mu求导并取0,可得

\mu^{ML}=\frac{1}{n}\sum^n_{i=1}x^{(i)}

 

(2)根据定义,最大后验分布应有:

p(\mu|x,\sigma^2)=\frac{p(\mu,x|\sigma^2)}{\sum_\mu p(x,\mu|\sigma^2)} \propto p(x|\mu,\sigma^2)p(\mu,\sigma^2)

所以,

\mu^{MAP}=argmax_\mu p(x|\mu,\sigma^2)p(\mu;\sigma^2)

而对乘积第二项,根据题目给的条件,

logp_\mu_p_{anterior}=log p(\mu_0,\sigma^2_0) \propto (\mu-\mu_0)^2

因此相比\mu^{ML},\mu^{MAP}多了一项\mu-\mu_0。

 

2-7:

我的理解是,当N足够多时,人们预先指定的先验分布p(\mu;\sigma^2)就没必要了,因为前面一项p(x|\mu,\sigma^2)类似经验误差随着N的增大而减小那样,变得不再随\mu的取值扰动而扰动。

 

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐