【机器学习系列】变分推断第二讲：基于Mean Field的变分推断解法

作者：CHEONG公众号：AI机器学习与知识图谱研究方向：自然语言处理与知识图谱阅读本文之前，首先注意以下两点：1. 机器学习系列文章常含有大量公式推导证明，为了更好理解，文章在最开始会给出本文的重要结论，方便最快速度理解本文核心。需要进一步了解推导细节可继续往后看。2. 文中含有大量公式，若读者需要获取含公式原稿Word文档，可关注公众号【AI机器学习与知识图谱】后回复：变分推断第二讲，可添加微

CHEONG_KG

1303人浏览 · 2021-04-09 16:55:58

CHEONG_KG · 2021-04-09 16:55:58 发布

作者：CHEONG

公众号：AI机器学习与知识图谱

研究方向：自然语言处理与知识图谱

阅读本文之前，首先注意以下两点：

1. 机器学习系列文章常含有大量公式推导证明，为了更好理解，文章在最开始会给出本文的重要结论，方便最快速度理解本文核心。需要进一步了解推导细节可继续往后看。

2. 文中含有大量公式，若读者需要获取含公式原稿Word文档，可关注公众号【AI机器学习与知识图谱】后回复：变分推断第二讲，可添加微信号【17865190919】进学习交流群，加好友时备注来自CSDN。原创不易，转载请告知并注明出处！

本文将先对变分推断所要解决的问题进行分析，然后给出基于Mean Field的变分推断解法。

一、本文结论

结论1： 变分推断的主要思想：在给定数据集 $X$ 下，问题是求后验概率 $p$ ，简单情况下后验概率 $p$ 可直接通过贝叶斯公式推导求出，但有些情况无法直接求解。因此变分推断想法是先假设另一个简单的概率分布 $q$ ，如高斯分布，通过优化 $p$ 和 $q$ 之间距离最小化，让概率分布 $q$ 逼近 $p$ ，这样就可以用概率分布 $q$ 近似表示后验概率 $p$ 。

结论2： 基于Mean Field的变分推断方法主要是假设将隐变量 $z$ 分成M个相互独立的部分 $z=(z_1,z_2,...,z_M)$ ，当求 $q_j(z_j)$ 时固定剩下M-1个部分。

结论3： 基于Mean Field的变分推断方法存在的两个问题：（1）假设将 $z=(z_1,z_2,...,z_M)$ 分成M个相互独立的部分，然后固定其他依次求得 $q_j(z_j)$ 。这个假设太强烈，在一些问题是无法分成相互独立的各个部分；（2）最后求出来的 $q_j(z_j)$ 仍然需要进行求积分，在一些问题中，仍然可能是Intractable，无法求解的。

二、问题分析

观测数据Observed Data： $X$

隐变量Latent Variable： $Z$

完整数据Complete Data： $(X, Z)$

目的： 求数据的后验概率 $p (z ∣ x)$ ，下面先给出变分推断的分析思路

在这里插入图片描述

首先由简单的联合概率分布的分解式引出问题，如下公式所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bnvN45Oj-1617958057057)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image023.png)]

通过两边加log变形为：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wD6jQnPH-1617958057060)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image025.png)]

为了近似求解后验概率 $p (z ∣ x)$ ，我们需要先引入另一个分布 $q (z)$ ，整合进上面公式中：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OgrdLuv6-1617958057065)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image027.png)]

接下来分别将上式的左边和右边部分对 $q (z)$ 进行积分：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-A47Hl0wR-1617958057071)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image031.png)]

其中

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-37r1SigK-1617958057077)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image033.png)]

所以左边在积分后仍然是 $l o g p (x)$ ，接下来对右边部分进行积分：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9F0pehv7-1617958057080)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image037.png)]

其中前半部分是Evidence Lower Bound，简称为 $E L B O$ ：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Y9TMxn46-1617958057085)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image039.png)]

后半部分是概率分布 $p$ 和 $q$ 的相对熵：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T4nemFit-1617958057087)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image045.png)]

因此有：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KbtHW55Z-1617958057091)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image047.png)]

因为当数据给定的情况下，左边 $l o g p (x)$ 是定值，即 $E L B O + K L (q ∣ ∣ p)$ 是一个定值，而其中 $K L (q ∣ ∣ p)$ 是大于等于0的，且 $K L (q ∣ ∣ p)$ 越小代表概率分布 $p$ 和 $q$ 就越接近，也就是我们要优化的目标，但 $K L (q ∣ ∣ p)$ 中包含后验概率不好直接优化最小，但因为 $E L B O + K L (q ∣ ∣ p)$ 是定值，所以我们可以优化让 $E L B O$ 部分最大， $K L (q ∣ ∣ p)$ 相对就越小，这样便可以用概率分布 $q$ 来代替 $p$ 了。

三、公式推导

通过上一小节的描述已经明确了变分推断需要优化的目标，总结为如下公式：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SJmEbkXc-1617958057095)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image055.png)]

下面通过公式推导求解是的 $E L B O$ 最大的后验概率 $q (z)$ 的值，使用基于Mean Field的变分推断的解法求解后验概率分布 $p (z ∣ x)$

先假设 $z=(z_1,z_2,...,z_M)$ ，并且这M份之间是相互独立的，则有：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iPQcUKRe-1617958057099)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image061.png)]

接下来对 $E L B O$ 项进行展开，并将 $q (z)$ 的值代入：

在这里插入图片描述

下面为了简便，先做一下变量假设：

在这里插入图片描述

在推导 $A$ 和 $B$ 前，先固定 $z=(z_1,...,z_{j-1}, z_{j+1}...,z_M)$ ，先 $z_j$ ，接下来先推导 $A$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4kDY5r1z-1617958057135)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image081.png)]

其中有：

在这里插入图片描述

因此可以得出 $A$ 的值如下：

在这里插入图片描述

接下来推导 $B$ ：

在这里插入图片描述

其中有：

在这里插入图片描述

因此得出了 $B$ 的值：

在这里插入图片描述

因为固定了 $z=(z_1,...,z_{j-1}, z_{j+1}...,z_M)$ ，只求未知量 $z_j$ ，所以：

在这里插入图片描述

其中 $C$ 是常量，至此有：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tpDxZftt-1617958057172)(file:///C:/Users/zl_sd/AppData/Local/Temp/msohtmlclip1/01/clip_image099.png)]

因此当KL取0时， $E L B O$ 能达到最大值，所以这里求出 $q_j(z_j)$ ：

在这里插入图片描述

其他的 $q_1(z_1),q_2(z_2),,...,q_M(z_M)$ 求解方法相同。这样求出了 $q^{*}(z)$ 求等价于求出了后验概率 $p (z ∣ x)$ 。

正如文章开头结论所说，基于Mean Field的变分推断方法存在的两个问题，下一节变分推断将介绍另一种解法：基于随机梯度上升SGD的变分推断推导方案：

1、假设将 $z=(z_1,z_2,...,z_M)$ 分成M个相互独立的部分，然后固定其他依次求得 $q_j(z_j)$ 。这个假设太强烈，在一些问题是无法分成相互独立的各个部分；

2、最后求出来的 $q_j(z_j)$ 仍然是求积分，在一些问题中，仍然可能是Intractable，无法求解的。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

AI行业与人工智能的关系与区别

讯飞AI开发者社区

本地部署文生图AI工具：打造可持续使用的创作环境

随着人工智能技术的快速发展，文生图（Text-to-Image）AI工具已经成为内容创作者、设计师、自媒体从业者的重要助手。本文将介绍一种可持续、免费、安全的使用方式——将文生图AI模型部署在本地电脑中，并结合一个实用的AI工具箱进行多模态内容创作。在AI技术日益普及的今天，掌握本地部署与多模态AI工具的协同使用，将成为内容创作者的一项核心能力。通过将文生图AI大模型部署到本地电脑，并辅以功能丰富