机器学习基础（五）最大似然估计

我们希望有些准则可以让我们从不同模型中得到特定函数作为好的估计，而不是猜测某些函数可能是好的估计，然后分析其偏差和方差。最常用的准则是最大似然估计。

_SeeUtoday_

723人浏览 · 2022-11-04 11:42:29

_SeeUtoday_ · 2022-11-04 11:42:29 发布

最大似然估计

我们希望有些准则可以让我们从不同模型中得到特定函数作为好的估计，而不是猜测某些函数可能是好的估计，然后分析其偏差和方差。最常用的准则是最大似然估计。

接下来是较为枯燥的数学推导，耐心看下去！公式看起来很复杂，其实本身并不复杂。

考虑一组含有 $m$ 个样本的数据集 $X={x(1),...,x(m)}\mathbb{X}=\{\textbf{\textit{x}}^{(1)},...,\textbf{\textit{x}}^{(m)}\}$ ,独立的由未知的真实数据生成分布 $pdata(x)p_{data}(\textbf{x})$ 生成。

令 $pmodel(x;θ)p_{model}(\textbf{x}; \boldsymbol{\theta})$ 是一族由 $θ\boldsymbol{\theta}$ 确定在相同空间上的概率分布，即 $pmodel(x;θ)p_{model}(\textbf{x}; \boldsymbol{\theta})$ 将任意输入 $x\textbf{\textit{x}}$ 映射到实数来估计真实概率 $pdata(x)p_{data}(\textbf{x})$ 。

对 $θ\boldsymbol{\theta}$ 的最大似然估计被定义为：
$\begin{aligned} \boldsymbol{\theta}_{\mathrm{ML}} &=\underset{\boldsymbol{\theta}}{\arg \max } p_{\text {model }}(\mathbb{X} ; \boldsymbol{\theta}) \\ &=\underset{\boldsymbol{\theta}}{\arg \max } \prod_{i=1}^m p_{\text {model }}\left(\boldsymbol{x}^{(i)} ; \boldsymbol{\theta}\right) \end{aligned}$

为了计算简便，利用对数将乘积改为求和形式：
$\boldsymbol{\theta}_{\mathrm{ML}}=\underset{\boldsymbol{\theta}}{\arg \max } \sum_{i=1}^m \log p_{\text {model }}\left(\boldsymbol{x}^{(i)} ; \boldsymbol{\theta}\right)$

重新缩放以上函数不会影响最终的结果，我们除以 $m$ 得到和训练数据经验分布 $p^data\hat{p}_{data}$ 相关的期望作为准则：
$θML=arg⁡max⁡θEx∼p^data log⁡pmodel (x;θ) \boldsymbol{\theta}_{\mathrm{ML}}=\underset{\boldsymbol{\theta}}{\arg \max } \mathbb{E}_{\mathrm{x} \sim \hat{p}_{\text {data }}} \log p_{\text {model }}(\boldsymbol{x} ; \boldsymbol{\theta})$

一种解释最大似然估计的观点是将它看作最小化训练集上的经验分布 $p^data\hat{p}_{data}$ 和模型分布之间的差异，两者之间的差异程度可以通过 KL 散度度量：
$(p^data ∥pmodel )=Ex∼p^data [log⁡p^data (x)−log⁡pmodel (x)] D_{\text {KL }}\left(\hat{p}_{\text {data }} \| p_{\text {model }}\right)=\mathbb{E}_{\mathbf{x} \sim \hat{p}_{\text {data }}}\left[\log \hat{p}_{\text {data }}(x)-\log p_{\text {model }}(x)\right]$

左边一项仅涉及到数据生成过程，和模型无关。因此我们只需要最小化
$−Ex∼p^data log⁡pmodel (x) -\mathbb{E}_{\mathbf{x} \sim \hat{p}_{\text {data }}}\log p_{\text {model }}(x)$

最小化 KL 散度其实就是在最小化分布之间的交叉熵，我们可以将最大似然看作是使模型分布尽可能地和经验分布 $p^data\hat{p}_{data}$ 相匹配的尝试。

经过以上推导，最大化似然变成了最小化负对数似然。

最大似然的性质

最大似然最吸引人的地方在于，它被证明当样本数目 $\to \infty$ 时，就收敛率而言是最好的渐近估计。

在合适的条件下，最大似然估计具有一致性，意味着训练样本数目趋向于无穷大时，参数的最大似然估计会收敛到参数的真实值。这些条件是：

真实分布 $p_{data}$ 必须在模型族 $p_{model}$ 中。否则，没有估计可以还原 $p_{data}$ 。
真实分布 $p_{data}$ 必须刚好对应一个 $θ\boldsymbol{\theta}$ 值。否则，最大似然估计恢复出真实分布后，也不能决定数据生成过程使用的是哪个 $θ\boldsymbol{\theta}$ 。

当样本数目小到会发生过拟合时，正则化策略如权重衰减可用于获得训练数据有限时方差较小的最大似然有偏版本。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

程序员必学！大模型五大核心技术(MCP/Agent/RAG/RPA/A2A)全解析（收藏版）

讯飞AI开发者社区

38_多模态模型：CLIP的视觉-语言对齐_深度解析

讯飞AI开发者社区

自然语言处理（NLP）基础

苹果”可以指一种水果，也可能指Apple 公司；“我今天早上没吃饭”中的“没”是否表示“完全没有”需要结合上下文。NLP 的任务就是让计算机能够“读懂”这些文字和语音，抽取其中的语义信息，从而与人类进行自然交流。简单来说，NLP 是计算机科学、人工智能与语言学的交叉学科。自然语言处理（NLP）让计算机能够理解和生成自然语言，是人工智能最贴近人类日常生活的技术之一。随着深度学习和大模型的发展，NLP