（《机器学习》完整版系列）第7章贝叶斯分类器——7.5 特殊的半朴素贝叶斯分类器（SPODE、TAN、AODE，研究特殊的“父子”关系）

一般的半朴素贝叶斯分类器需要知道每个$x_i$的父$\mathrm{pa}_i$，假定所有属性$x_i$有同一个父属性（该属性称为“超父”），特殊的半朴素贝叶斯分类器研究一些特殊的“父子”关系。

人工干智能

505人浏览 · 2023-02-26 11:16:23

人工干智能 · 2023-02-26 11:16:23 发布

一般的半朴素贝叶斯分类器需要知道每个 $x_i$ 的父 $\mathrm{pa}_i$ ，
假定所有属性 $x_i$ 有同一个父属性（该属性称为“超父”），特殊的半朴素贝叶斯分类器研究一些特殊的“父子”关系。

特殊的半朴素贝叶斯分类器

本篇讨论几个特殊的半朴素贝叶斯分类器。

1、SPODE

前述的一般的半朴素贝叶斯分类器需要知道每个 $x_i$ 的父 $\mathrm{pa}_i$ ，假定不知道呢？我们在一种特殊情况下研究这种“不知道”：
假定所有属性 $x_i$ 有同一个父属性（该属性称为“超父”），但不知哪个属性为“超父”。

我们把“超父”视为“超参数”，先任意指定它：

先看看以 $x_1$ 为“超父”的情况，即 $\mathrm{pa}_i=x_1,(i=2,3,\cdots,d),\mathrm{pa}_1=\mathrm{True}$ ，则式(7.32)变为：
$\begin{align} P(c\,|\,\boldsymbol{x}) & \propto P(c)P({x_1}\,|\,c)\mathop{\prod }\limits_{i=2}^dP({x_i}\,|\,c,x_1)\notag \\ & = P(c,x_1)\mathop{\prod }\limits_{i=2}^dP({x_i}\,|\,c,x_1) \tag{7.34} \end{align}$
这样，给定训练集就可以利用上节的求解步骤求出一个半朴素贝叶斯分类器，对该分类器可以在测试集上度量其性能。

在数据集 $D$ 上使用交叉验证法（参见【西瓜书2.2.2节】），得到以 $x_1$ 为“超父”的半朴素贝叶斯分类器的性能为 $E_1$ 。

同样，求得分别以 $x_2,x_3,\cdots,x_d$ 为“超父”的半朴素贝叶斯分类器的性能为 $E_2,E_2,\cdots,E_d$ 。

比较这些性能，找到最小者，不妨设为 $E_{i^*}$ ，则 $x_{i^*}$ 为最优“超父”。

最后，以 $x_{i^*}$ 为“超父”，以数据集 $D$ 全体数据为训练集，用上节的求解步骤训练出SPODE分类器 $h^*(\boldsymbol{x})$ 。

2.TAN

我们先通过如下步骤构建一种树形结构：

（1）定义互信息

$\begin{align} I(A,B)=P(A,B){\log} \frac{P(A,B)}{P(A)P(B)} \tag{7.35} \end{align}$
则任意两个属性间的条件互信息为
$\begin{align} I(x_i,x_j\,|\,y)=\sum_{c \in \mathcal{Y} }P(x_i,x_j\,|\,c){\log} \frac{P(x_i,x_j\,|\,c)}{P(x_i\,|\,c)P(x_j\,|\,c)} \tag{7.36} \end{align}$

（2）以属性为结节构建完全图， $x_i,x_j$ 连线上的权重为 $I(x_i,x_j\,|\,y)$ 。

（3）从权重最小的边开始，去掉一些边，使得

所有结点是连通的；
使用的边数最少；
边上的权重之和最大；

（4）挑选根变量，将边置为有向，形成“父 $\rightarrow$ 子”关系，即形成一棵树（称为最大带权生成树，有专门的算法）。

完成了上述结构构建后，对每个类 $c$ 计算 $P(c\,|\,\boldsymbol{x})$ ：

（1）由数据集 $D$ 中各类别的频率【西瓜书式(7.16)】（或其修正【西瓜书式(7.19)】）作为 $P (c)$ 的近似值。

（2）利用式(7.33)计算估值 $P(x_i\,|\,c,\mathrm{pa}_i)$ 。

（3）利用式(7.32)即【西瓜书式(7.21)】右边，计算 $P(c\,|\,\boldsymbol{x})$ 。

最后，基于所有的 $P(c\,|\,\boldsymbol{x})$ ，用【西瓜书式(7.6)】得到TAN的分类器 $h^*(\boldsymbol{x})$ 。

3、AODE

前述的SPODE是逐一试“超父”，找一个最优“超父”，现在我们指定“超父资格”，具有资格的“超父”中并不选优，而是对结果做“平均”，这就是AODE。

资格：数据集 $D$ 中样本的第 $i$ 个属性若取值比较集中（如，第 $i$ 个属性 $x_i$ 取值为 $x_i'$ 的样本数超过指定的阈值 $m^{'}$ ，记为 $|D_{x_i}|\geqslant m'$ ），则该属性 $x_i$ 有资格当超父。

属性 $x_i$ 当超父时，则有类似于式(7.34)的式子：
$\begin{align} P(c\,|\,\boldsymbol{x}) & \propto P(c,x_i)\mathop{\prod }\limits_{j\neq i}^dP({x_j}\,|\,c,x_i)\notag \\ & = P(c,x_i)\mathop{\prod }\limits_{j=1}^dP({x_j}\,|\,c,x_i)\quad \text{（由于$P({x_i}\,|\,c,x_i)=1$）} \tag{7.37} \end{align}$
其中， $|D_{x_i}|\geqslant m'$ 。这就是一个给定超父的SPODE。

对于样本集的属性逐个考察，可能有多个属性满足上述的条件，即有多个式(7.37)，求其平均值，则
$\begin{align} P(c\,|\,\boldsymbol{x}) \propto \sum_{|D_{x_i}|\geqslant m'}P(c,x_i)\mathop{\prod }\limits_{j=1}^dP({x_j}\,|\,c,x_i) \tag{7.38} \end{align}$
视为多个给定超父的SPODE的集成。