机器学习笔记之正则化(四)贝叶斯概率角度

上一节介绍了从权重衰减的角度描述正则化的本质，本节从贝叶斯概率的角度对正则化进行描述。

静静的喝酒

527人浏览 · 2023-04-07 14:31:56

静静的喝酒 · 2023-04-07 14:31:56 发布

机器学习笔记之正则化——贝叶斯概率角度

引言

引言

上一节介绍了从权重衰减的角度描述正则化的本质，本节从贝叶斯概率的角度对正则化进行描述。

本节建议与极大似然估计与最大后验概率估计结合阅读。

回顾：极大似然估计与最大后验概率估计

似然与最大似然估计

关于似然，我们并不陌生。似然就是似然函数( $\text{Likelihood Function}$ )，这个函数描述的是一个概率分布：
$\sim \mathcal P(\mathcal X;\theta)$
其中 $\theta$ 表示这个似然函数的参数。 $\mathcal X$ 表示样本集合； $x$ 表示服从分布 $\mathcal P(\mathcal X;\theta)$ 中的某个样本。我们通常也会将似然函数描述成对数似然函数 $(\text{Log-Likelihod Function})$ ：
$\mathcal P(\mathcal X;\theta) \Rightarrow \log \mathcal P(\mathcal X;\theta)$
假设样本集合 $\mathcal X = \{(x^{(i)},y^{(i)})\}_{i=1}^N$ ，并假设各样本之间满足独立同分布( $\text{Independent Identically Distribution,IID}$ )：
$x^{(i)} \overset{\text{i.i.d}}{\sim} \mathcal P(\mathcal X;\theta) \quad i=1,2,\cdots,N$
那么概率分布 $\mathcal P(\mathcal X;\theta)$ 可看作是样本集合 $\mathcal X$ 内 $N$ 个相互独立样本 $x^{(i)}(i=1,2,\cdots,N)$ 的联合概率分布：
$\begin{aligned} \mathcal P(\mathcal X;\theta) & = \mathcal P(x^{(1)},x^{(2)},\cdots,x^{(N)};\theta)\\ & = \prod_{i=1}^N \mathcal P(x^{(i)};\theta) \end{aligned}$
而对应的对数似然函数表示如下：

对数似然函数相较于似然函数在极大似然估计中有明显的优点。它将连乘操作 $\prod_{i=1}^N$ 转化为连加操作 $\sum_{i=1}^N$ ,节省了大量的计算资源,并且有利于后续的推导过程。
并且 $\log$ 函数自身是单调递增函数，对极大似然估计结果的单调性无影响。
$\begin{aligned} \log \mathcal P(\mathcal X;\theta) & = \log \prod_{i=1}^N \mathcal P(x^{(i)};\theta) \\ & = \sum_{i=1}^N \log \mathcal P(x^{(i)};\theta) \end{aligned}$

关于极大似然估计，它是一个算法，它的返回结果是某个参数值，这个参数值满足的条件是：使得似然函数/对数似然函数结果达到最大：
这里使用对数似然函数为例。
$\hat \theta = \mathop{\arg\max}\limits_{\theta} \log \mathcal P(\mathcal X;\theta)$
假设 $\hat \theta$ 就是基于样本集合 $\mathcal X$ 极大似然估计的最优参数结果，那么对应的 $\mathcal P(\mathcal X;\hat \theta)$ 也是一个确定的概率分布结果，并且它与真实模型 $\mathcal P_{data}(\mathcal X)$ 是接近的。

极大似然估计与最大后验概率估计

极大似然估计的问题描述

先说结论：极大似然估计不够准确。

以投掷硬币为例，投掷 $10$ 次硬币，可能会得到如下几种结果：
其他结果我们不例举了。

硬币是正面 $1$ 次，反面 $9$ 次 $\Rightarrow \theta_1$ ；
硬币是正面 $8$ 次，反面 $2$ 次 $\Rightarrow \theta_2$ ；
硬币是正面 $7$ 次，反面 $3$ 次 $\Rightarrow \theta_3$ ；

如果以上述不同的 $\theta$ 值来描述投掷 $10$ 次硬币，其中正面 $3$ 次，反面 $7$ 次这个事件的概率时，我们会得到不同的概率结果：
需要说明的点，关于似然函数 $\mathcal P(\mathcal X;\theta)$ 和 $\mathcal P(\mathcal X \mid \theta)$ 写法都是没有问题的，都有各自的意义。其中 $\mathcal P(\mathcal X;\theta)$ 可看作参数是 $\theta$ 的概率模型/概率分布; $\mathcal P(\mathcal X \mid \theta)$ 可看作是给定模型参数 $\theta$ 条件下，生成出样本集合 $\mathcal X$ 概率。
$\begin{cases} \mathcal P(\mathcal X \mid \theta_1) = \mathcal C_{10}^3 \cdot (\frac{1}{1 + 9})^7 \cdot (\frac{9}{1+ 9})^3 \\ \mathcal P(\mathcal X \mid \theta_2) = \mathcal C_{10}^3 \cdot (\frac{8}{2 + 8})^7 \cdot (\frac{2}{2 + 8})^3 \\ \mathcal P(\mathcal X \mid \theta_3) = \mathcal C_{10}^3 \cdot (\frac{7}{3 + 7})^7 \cdot (\frac{3}{3 + 7})^3 \\ \end{cases}$

虽然我们知道，随着我们投掷硬币的次数越多，上述的概率结果(括号内的部分)会越趋于稳定 $\Rightarrow$ 向数值 $0.5$ 收敛。但这个 $0.5$ 结果我们可能永远也取不到。从而导致 $\theta$ 值永远无法得到精确解。

但是我们希望能够得到一个精确解来描述模型，因而使用极大似然估计去将这个解 $\theta$ 作为精确解。上述示例中，由于：
$\mathcal P(\mathcal X \mid \theta_1) < \mathcal P(\mathcal X \mid \theta_2) < \mathcal P(\mathcal X \mid \theta_3)$
因而上述示例中最优解是 $\mathcal P(\mathcal X \mid \theta_3)$ 对应的参数 $\theta_3$ 。
那么关于极大似然估计，它有两个不合理的地方：

由于没有办法确定 $\theta$ ，我们可能需要通过大量的独立实验来统计 $\theta$ 可能发生的情况，并统计 $\theta$ 对应情况的概率分布 $\mathcal P(\theta \mid \mathcal X)$ ，并从 $\mathcal P(\theta\ \mid \mathcal X)$ 中选择出 $\theta$ 的解。
需要注意的是，这个情况不一定是离散的，也可能是连续的。

但实际上，我们没有使用 $\mathcal P(\theta \mid \mathcal X)$ 对 $\theta$ 进行描述，而是使用似然函数 $\mathcal P(\mathcal X \mid \theta)$ 替代 $\mathcal P(\theta \mid \mathcal X)$ 进行描述。可是 $\mathcal P(\mathcal X \mid \mathcal \theta) \neq \mathcal P(\theta \mid \mathcal X)$ 。
$\theta$ 自身没有办法求得精确解，但我们希望使用极大似然估计对应的参数结果作为 $\mathcal P(\mathcal X\mid \theta)$ 的最优解。

改进：最大后验概率估计

针对上述的第一个不合理的点，虽然 $\mathcal P(\mathcal X \mid \theta) \neq \mathcal P(\theta \mid \mathcal X)$ ，但是它们之间存在关联关系。使用贝叶斯定理对其进行描述：
$\mathcal P(\theta \mid \mathcal X) = \frac{\mathcal P(\mathcal X \mid \theta)}{\mathcal P(\mathcal X)} \cdot \mathcal P(\theta)$

由于 $\mathcal X$ 是样本集合，是已知量，我们可以将上述公式看作关于 $\theta$ 的一个函数 $f_{\mathcal X}(\theta)$ ：
其中 $\mathcal P(\mathcal X) = \int_{\theta} \mathcal P(\mathcal X \mid \theta) \cdot \mathcal P(\theta) d\theta$ ,它和 $\theta$ 无关,被视作常数。一个常数对于求解最值没有影响。
$\begin{aligned} f_{\mathcal X}(\theta) & = \mathcal P(\theta \mid \mathcal X) = \frac{\mathcal P(\mathcal X \mid \theta)}{\mathcal P(\mathcal X)} \cdot \mathcal P(\theta) \\ & \propto \mathcal P(\mathcal X \mid \theta) \cdot \mathcal P(\theta) \end{aligned}$
对应的最大后验估计可表示为：
$\hat \theta = \mathop{\arg\max}\limits_{\theta} f_{\mathcal X}(\theta) = \mathop{\arg\max}\limits_{\theta} \left[\mathcal P(\mathcal X \mid \theta) \cdot \mathcal P(\theta)\right]$
与对数似然函数一样，我们也可以给上式添加一个 $\log$ 项：
$\begin{aligned} \hat \theta & = \mathop{\arg\max}\limits_{\theta} \log [\mathcal P(\mathcal X \mid \theta) \cdot \mathcal P(\theta)] \\ & = \mathop{\arg\max}\limits_{\theta} \left[\log \mathcal P(\mathcal X \mid \theta) + \log \mathcal P(\theta) \right] \end{aligned}$

正则化项与先验概率

此时可以对比一下极大似然估计与最大后验概率估计的公式结果：
$\begin{cases} \text{MAP : } \hat \theta = \mathop{\arg\max}\limits_{\theta} \left[\log \mathcal P(\mathcal X \mid \theta) + \log \mathcal P(\theta) \right] \\ \text{MLE : } \hat \theta = \mathop{\arg\max}\limits_{\theta} \log \mathcal P(\mathcal X \mid \theta) \end{cases}$

其中对数似然函数 $\log \mathcal P(\mathcal X \mid \theta)$ 自身就是一种损失函数，通过最大化 $\log \mathcal P(\mathcal X \mid \theta)$ 来近似求解真实模型中的最优参数 $\hat \theta$ 。

上述式子仅差一项： $\log \mathcal P(\theta)$ 。 $\mathcal P(\theta)$ 表示参数的先验概率。在贝叶斯主义的思想中，先验概率并不重要，它总是会在大量的实验过程中，逐渐收敛至真实模型对应参数的概率分布。

高斯分布与 $L_2$ 正则化

假设该先验分布中的参数 $\theta$ 服从高斯分布：

这里要定义 $\theta$ 是一个 $\mathcal K$ 维向量，这意味着 $\theta$ 是 $\mathcal K$ 维权重空间中的一个点:
$\theta = (\theta_1,\theta_2,\cdots,\theta_{\mathcal K})^T$
我们假设 $\theta$ 每个维度的分量 $\theta_k(k=1,2,\cdots,\mathcal K)$ 均服从均值为 $0$ ,方差为 $\sigma^2$ 的一维高斯分布:
$\theta_k \sim \mathcal N(0, \sigma^2) \quad k=1,2,\cdots,\mathcal K$

使用概率密度函数可以将 $\log \mathcal P(\theta)$ 表示为：

和样本空间 $\mathcal X$ 相同，关于 $\theta$ 的权重空间，任意两组基均两两正交。这意味着 $\mathcal K$ 维特征之间相互‘线性无关’。
将对应概率密度函数代入。
$\begin{aligned} \log \mathcal P(\theta) & = \log \mathcal P(\theta_1,\theta_2,\cdots,\theta_{\mathcal K}) \\ & = \log \prod_{k=1}^{\mathcal K} \mathcal P(\theta_k) \\ & = \log \prod_{k=1}^{\mathcal K} \left\{\frac{1}{\sigma \cdot \sqrt{2\pi}} \exp \left[-\frac{(\theta_k - 0)^2}{2\sigma^2}\right]\right\} \end{aligned}$

将 $\log$ 代入公式中，最终可化简为如下形式：
这里 $\mathcal C$ 表示常数。
$\begin{aligned} \log \mathcal P(\theta) & = \sum_{k=1}^{\mathcal K} \log \left\{\frac{1}{\sigma \cdot \sqrt{2\pi}} \exp \left[-\frac{(\theta_k - 0)^2}{2\sigma^2}\right]\right\} \\ & = \sum_{k=1}^{\mathcal K}\left\{\log \left[\frac{1}{\sigma \cdot \sqrt{2\pi}}\right] + \log \exp \left[-\frac{(\theta_k - 0)^2}{2\sigma^2}\right]\right\} \\ & = \underbrace{\mathcal K \cdot \log \left[\frac{1}{\sigma \cdot \sqrt{2\pi}}\right]}_{常数} - \frac{1}{2\sigma^2} \sum_{k=1}^{\mathcal K} \theta_k^2 \\ & = -\frac{1}{2\sigma^2} \theta^T\theta + \mathcal C \end{aligned}$
这明显就是一个 $L_2$ 正则化项。其中 $\begin{aligned}\lambda = -\frac{1}{2\sigma^2}\end{aligned}$ 。也就是说：使用最大后验概率求解最优参数的过程中，先验分布 $\mathcal P(\theta)$ 如果选择均值为 $0$ 正态分布，相当于在极大似然估计作为损失函数的基础上，增加了 $L_2$ 正则化作为约束。

$\text{Laplace}$ 分布与 $L_1$ 正则化

同理，如果参数 $\theta$ 各分量均服从一维拉普拉斯分布：
$\theta_k \sim \text{Laplace}(0,b)$
那么对数条件下的先验概率分布 $\log \mathcal P(\theta)$ 可表示为：
$\begin{aligned} \log \mathcal P(\theta) & = \sum_{k=1}^{\mathcal K} \log \mathcal P(\theta_k) \\ & = \sum_{k=1}^{\mathcal K} \log \left\{\underbrace{\frac{1}{2b} \exp \left[-\frac{|\theta_k - 0|}{b}\right]}_{1-\text{Dim Laplace(0,b) PDF}}\right\} \\ & = \underbrace{\mathcal K \cdot \log \frac{1}{2b}}_{常数} -\frac{1}{b} \sum_{k=1}^{\mathcal K} |\theta_k| \\ & = -\frac{1}{b} \sum_{k=1}^{\mathcal K} |\theta_k| + \mathcal C \end{aligned}$
也可以看出：先验分布选择了均值为 $0$ 拉普拉斯分布，相当于将极大似然估计作为损失函数的基础上，增加了 $L_1$ 正则化作为约束。

同理，我们也可以尝试其他先验分布。如果先验分布是一个常数，此时该分布与参数 $\theta$ 没有关联关系，被忽略。此时最大后验概率被退化成极大似然估计。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

医疗实践中的生成式人工智能

讯飞AI开发者社区

组学数据的真正价值？

讯飞AI开发者社区

AI技术：未来已来的智能革命

本文摘要：文章系统介绍了人工智能技术，涵盖定义、发展历程、核心技术（机器学习、NLP、计算机视觉等）和典型应用（医疗、金融、自动驾驶等）。同时探讨了AI面临的伦理挑战（数据隐私、算法偏见）和社会影响，并展望未来趋势。文中提供了代码示例展示神经网络实现，最后提出对AI发展的建议与思考。全文结构清晰，兼顾技术深度与社会维度，为读者提供全面的人工智能知识框架。