经典机器学习算法：朴素贝叶斯

朴素贝叶斯介绍回顾高斯判别分析朴素贝叶斯朴素贝叶斯法模型朴素贝叶斯法的假设朴素贝叶斯法的参数估计极大似然估计贝叶斯估计回顾高斯判别分析生成模型，使用较强的假设。对于两类样本，其服从伯努利分布，而对每个类中的样本，假定都服从高斯分布。朴素贝叶斯朴素贝叶斯是生成模型，和高斯判别分析类似，主要针对最大化p(X∣Y)p(Y)p(X|Y)p(Y)p(X∣Y)p(Y)进行建模，高斯判别分析有两个假设：对于两类

wujiekd

461人浏览 · 2021-04-05 15:24:16

wujiekd · 2021-04-05 15:24:16 发布

朴素贝叶斯介绍

回顾

高斯判别分析

生成模型，使用较强的假设。
对于两类样本，其服从伯努利分布，而对每个类中的样本，假定都服从高斯分布。

朴素贝叶斯

朴素贝叶斯是生成模型，和高斯判别分析类似，主要针对最大化 $p (X ∣ Y) p (Y)$ 进行建模，高斯判别分析有两个假设：对于两类样本，其服从伯努利分布，而对每个类中的样本，假定都服从高斯分布(多属性即多维高斯分布）。但是高斯判别分析求解过程非常复杂，所以朴素贝叶斯对数据的属性之间的关系作出了假设，每个类中的样本都服从独立同分布，即iid。

朴素贝叶斯法模型

朴素贝叶斯对数据的属性之间的关系作出了假设，一般地，我们若需要得到 $p (X ∣ Y)$ 这个概率值，由于 $x$ 有 $p$ 个维度，因此需要对这么多的维度的联合概率进行采样，但是我们知道这么高维度的空间中采样需要的样本数量非常大才能获得较为准确的概率近似，但在朴素贝叶斯中采用的是对条件概率分布作出了条件独立性的假设，使得贝叶斯求解大大简化，因此朴素贝叶斯因此得名。
$p(x|y)=\prod\limits_{i=1}^pp(x_i|y)$
即：
$x_i\perp x_j|y,\forall\ i\ne j$
于是利用贝叶斯定理，对于单次观测：
$p(y|x)=\frac{p(x|y)p(y)}{p(x)}=\frac{\prod\limits_{i=1}^pp(x_i|y)p(y)}{p(x)}$

朴素贝叶斯法的假设

对于单个维度的条件概率以及类先验作出进一步的假设：

$x_i$ 为连续变量： $p(x_i|y)=\mathcal{N}(\mu_i,\sigma_i^2)$ ，即一维高斯分布
$x_i$ 为离散变量：类别分布（Categorical）： $p(x_i=i|y)=\theta_i,\sum\limits_{i=1}^K\theta_i=1$
$p(y)=\phi^y(1-\phi)^{1-y}$

对这些参数的估计，常用极大似然估计的方法直接在数据集上估计，由于不需要知道各个维度之间的关系，因此，所需数据量大大减少了。估算完这些参数，再代入贝叶斯定理中得到类别的后验分布。

朴素贝叶斯法的参数估计

估计相应的概率 $p (y)$ 和 $p(x_i|y)$

极大似然估计

其实就是根据数据统计一下概率即可

计算 $p (y)$

$P(Y=c_k) = \frac{\sum_{i=1}^NI(y_i=c_k)}{N},k=1,2,...,K$

计算 $p(x_i|y)$

$P(X^{(j)}=a_{jl}|Y=c_k) = \frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^NI(y_i=c_k)}$
$j=1,2,...,n;l=1,2,...,S_i;k=1,2,...,K$

给定输入，输出预测标签

给定 $x ＝ (2, S)$ ，输出 $y = - 1$
在这里插入图片描述

贝叶斯估计

可以看到计算概率时用的是连乘，用极大似然估计可能会出现所要估计的概率值为0的情况，所以当有一种特征在此前没出现过，就会导致该标签输出的概率直接为0。因此可使用贝叶斯估计解决这一问题，贝叶斯估计其实非常繁琐，但在该问题的强假设：独立同分布下，就是在取值频数时赋予一个正数对其进行平滑，避免了0值的出现。

计算 $p (y)$

$P(Y=c_k) = \frac{\sum_{i=1}^NI(y_i=c_k)+\lambda}{N +K\lambda},k=1,2,...,K$

计算 $p(x_i|y)$

$P(X^{(j)}=a_{jl}|Y=c_k) = \frac{\sum_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^NI(y_i=c_k)+S_j\lambda}$
$j=1,2,...,n;l=1,2,...,S_i;k=1,2,...,K$

给定输入，输出预测标签

技术共进，成长同行——讯飞AI开发者社区

更多推荐

论文笔记：AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models（AlphaEdit）

论文发表于人工智能顶会ICLR（基于定位和修改的模型编辑方法（针对和等）会破坏LLM中最初保存的知识，特别是在顺序编辑场景。为此，本文提出AlphaEdit：1、在将保留知识应用于参数之前，将扰动投影到保留知识的零空间上。2、从理论上证明，这种预测确保了在查询保留的知识时，编辑后的LLM的输出保持不变，从而减轻中断问题。3、对各种LLM（包括LLaMA3、GPT2XL和GPT-J）的广泛实验表明，