自然语言处理NLP——文本分类之模型建立

为完待续。。。

Little_Yuu

1019人浏览 · 2020-06-15 19:42:14

Little_Yuu · 2020-06-15 19:42:14 发布

一、朴素贝叶斯分类器

朴素贝叶斯分类器是在属性条件独立性假设下，基于贝叶斯定理的有监督的机器学习算法。假设分类变量为 $y$ ,样本特征向量为 $x_1,x_2,...,x_n$ ,则
$P(y∣x1,...,Xn)=P(y)P(x1,...,xn∣y)P(x1,...,xn)P(y|x_1,...,X_n)=\frac{P(y)P(x_1,...,x_n|y)}{P(x_1,...,x_n)}$
基于属性条件独立性假设，上式可写为：
$P(y∣x1,...,xn)=P(y)∏i=1nP(xi∣y)P(x1,...,xn)P(y|x_1,...,x_n)=\frac{P(y)\prod_{i=1}^nP(x_i|y)}{P(x_1,...,x_n)}$
使用最大后验估计来估计后验概率 $P(y|x_1,...,x_n)$ ,由于 $P(x_1,...,x_n)$ 相对于 $y$ 来说是独立的，可以忽略 $P(x_1,...,x_n)$ ，因此贝叶斯判定准则为
$y^=arg max⁡yP(y)∏i=1nP(xi∣y)\hat{y}=\argmax_{y}P(y)\prod_{i=1}^nP(x_i|y)$
朴素贝叶斯分类器是利用训练集D来估计先验概率 $P (y)$ 和 $P(x_i|y)$ 。假设样本独立同分布，那么先验概率
$P(y)=∣Dy∣∣D∣P(y)=\frac{|D_y|}{|D|}$
其中|D_y|表示训练集D中分别为 $y$ 的样本的集合。
假设 $P(xi∣y)∼N(μy,i,σy,i)P(x_i|y)\sim N(\mu_{y,i},\sigma_{y,i})$ ,其中 $μy,i\mu_{y,i}$ 和 $σy,i\sigma_{y,i}$ 分别是第 $y$ 类样本在第 $i$ 个属性上的均值、方差。则，
$P(xi∣y)=12πσy2exp(−(xi−μy)22σy2)P(x_i|y)=\frac{1}{\sqrt{2\pi\sigma_y^2}}exp(-\frac{(x_i-\mu_y)^2}{2\sigma_y^2})$
使用高斯朴素贝叶斯分类器的代码如下：

from sklearn.naive_bayes import GaussianNB
nb=GaussianNB()
nb.fit(train_X,train_y)
print('acc=','%.2f%%'%(nb.score(test_X,test_y)*100))

二、支持向量机

支持向量机是一种有监督的机器学习算法。其基本思想是将低维的样本空间的线性不可分问题转化为更高维样本空间的线性可分问题。支持向量机通过找到使得不同类别的样本在高维样本空间中具有最大间隔的超平面来解决分类问题。超平面方程如下：
$w^Tx+b=0$
其中 $w=(w_1;w_2;...;w_d)$ 为超平面的法向量，决定超平面的方向； $b$ 为偏移项，决定超平面与原点的距离。
假设样本特征向量为 $xi∈R,i=1,...,nx_i \in R,i=1,...,n$ ,样本标签为 $\in \{1, -1\}$ ,支持向量机的原问题为：
$min⁡w,b12wTw\min_{w,b}\frac{1}{2}w^Tw$
$y_i(w^Tx_i+b) \geq 1,i=1,2,...,m$

三、决策树

决策树是一种非参数的有监督学习算法。决策树可以用来处理分类和回归问题。本文利用决策树对上市公司公告进行分类。决策数的训练过程就是根据训练数据生成一颗具备良好泛化性能的决策树的过程。生成决策树的基本流程如下：

输入： 训练集 $D={(x1,y1),(X2,y2),...,(xm,ym)}D=\left\{(x_1,y_1),(X_2,y_2),...,(x_m,y_m)\right\}$
属性集 $A={a_1,a_2,...,a_d}$
过程： 函数： $T r e e G e n e r a t e (D, A)$
生成节点node;
if D中样本全部属于同一类别C then
将node标记为C类叶节点；return
end if
从A中选择最优划分属性 $a_*$ ;
for $a_*$ 的每一个值 $a_*^v$ do
为node生成一个分支；令 $D_v$ 表示 $D$ 中在 $a_*$ 上取值为 $a_*^v$ 的样本子集；
if $D_v$ 为空 then
将分支节点标记为叶节点，其类别标记为D中样本最多的类；return
else
以 $TreeGenerate(Dv,A\a∗)TreeGenerate(D_v,A\backslash {a_*})$ 为分支节点
end if
end for
输出： 以node为根结点的决策树
生成决策树的关键在于如何选择最优划分属性，最优的划分属性即是能够使得当前样本集合 $D$ 最快变纯的属性。本文采用CART决策树学习算法，CART算法是Classification and Regression的缩写，该算法使用基尼指数来选择最优划分属性。假设属性 $a$ 有 $V$ 个可能的取值 ${a1,a2,...,aV}\left\{a^1,a^2,...,a^V \right\}$ ,则使用属性 $a$ 对样本集合 $D$ 进行划分，得到 $V$ 个分支节点，设第 $v$ 个分支节点中的样本集合为 $D^v$ ,当前样本集合中属性 $a$ 的基尼指数公式如下：
$Gini_index(D,a)=∑v=1V∣Dv∣∣D∣Gini(Dv)Gini\_index(D,a)=\sum_{v=1}^V\frac{|D^v|}{|D|}Gini(D^v)$
其中， $Gini(D^v)$ 是基尼值，用来度量样本集合 $D^v$ 的纯度。其公式如下：
$Gini(D)=1−∑kpk2Gini(D)=1-\sum_{k}p_k^2$
其中 $p_k$ 为当前样本集合 $D$ 中第 $k$ 类样本所占的比例。
基尼值反映了当前样本集合中随机抽取两个样本，其类别标记不一致的概率，基尼值越小，则样本集合 $D$ 的纯度越高。基尼指数是度量使用属性值a对样本集合进行划分前后的纯度提升量。基尼指数越小，杨本集合的纯度提升越大。设候选属性集合为 $A$ ，则最优划分属性：
$min⁡a∈AGini_index(D,a)a_*=\argmin_{a \in A} Gini\_ index(D,a)$
使用决策树分类器的代码如下：

from sklearn.tree import DecisionTreeClassifier
dtc=DecisionTreeClassifier()
dtc.fit(train_X,train_y)
print('acc=','%.2f%%'%(dtc.score(test_X,test_y)*100))

四、随机森林

随机森林是以决策树为基分类器的集成学习算法。该算法在通过同时生成 $N$ 棵独立的决策树，且在决策树的训练过程中引入了随机属性选择，最后通过投票法决定分类的结果，即少数服从多数。该算法在决策树的基础上，通过引入样本扰动和属性扰动来提升模型的泛化性能。本文生成了100颗相互独立的决策树，并使用投票法得出最终夺得分类结果。随机森林的代码如下：

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import balanced_accuracy_score,f1_score
forrest=RandomForestClassifier(
    n_estimators=100,
    n_jobs=8,
    random_state=26366,
    #class_weight="balanced")
forrest.fit(train_X,train_y)
print('acc=','%.2f%%'%(forrest.score(test_X,test_y)*100))

五、卷积神经网络

卷积神经网络（Convolutional neural Network，简称CNN）是一种采取权重共享策略的有监督深度学习算法。其结构主要包括卷积层和采样层。每个卷积层由多个特征映射（feature map）构成，每个特征映射通过滤波器（filter）提取上一层的局部特征得到；采样层又叫池化（pooling）层,其作用是对卷积层得到的特征映射进行亚采样。本文使用卷积神经网络提取文本的特征，输入不定长的向量序列，通过卷积层使用多个不同大小的卷积滤波器得到多个特征映射，并针对这些特征映射作时间维度上的最大池化。

六、深层长短期记忆网络

长短期记忆网络（Long Short-Term Memory,简称LSTM）是一种加入了记忆单元 $c$ 、输入门 $i$ 、遗忘门 $f$ 及输出门 $o$ 的循环神经网络，这些门和记忆单元的加入避免了循环神经网络在训练过程中容易出现梯度消失或梯度爆炸的现象，能更好的处理长序列文本。
$h_t=F(x_t,h_{\{t-1\}})$
$it=σ(Wxixt+Whiht−1+Wcict−1+bi)i_t=\sigma (W_{xi}x_t+W_{hi}h_{t-1}+W_{ci}c_t-1+b_i)$
$fi=σ(Wxixt+Whfht−1+W+cfct−1+bf)f_i=\sigma (W_{xi}x_t+W_{hf}h_{t-1}+W+{cf}c_{t-1}+b_f)$
$ct=ft⊙ct−1+it⊙tanh⁡(Whcht−1+bc)c_t=f_t \odot c_{t-1}+i_t \odot \tanh(W_{hc}h_{t-1}+bc)$
$ot=σ(Wxoxt+Whoct+bo)o_t=\sigma (W_{xo}x_t+W_{ho}c_t+b_o)$
$ht=ot⊙tanh(ct)h_t=o_t \odot tanh(c_t)$
其中， $x_t$ 是文本序列第t时刻的词向量， $h_{t-1}$ 为t-1时刻隐藏层的状态值， $c_t$ 为记忆单元， $i_t$ 为输入门，控制输入记忆单元的强度， $f_t$ 遗忘门，控制记忆单元维持上一时刻值的强度， $o_t$ 为输出门，控制输出记忆单元的强度， $σ\sigma$ 为sigmoid激活函数，W为隐藏层到隐藏层的权重矩阵， $b_h$ 为隐藏层的偏置矩阵， $⊙\odot$ 为逐元素乘法操作， $tanh⁡\tanh$ 为双曲正切函数。

七、多头自注意力机制网络

基于点积并进行了缩放的多头自注意力机制网络通过计算词向量之间的相似度（点积）来学习词向量之间的相关性，即学习每个词上下文语境，再通过两层全连接神经网络，将学到的含有上下文语境的词向量序列表示到固定的特征空间中，最后通过softmax得到分类为不同类别的概率分布。自注意力机制的基本思路是将输入的词向量序列通过三个不同的权重矩阵得到 $Q, K, V$ 三个矩阵，其中 $Q$ 称为查询矩阵， $K 和 V$ 是键值对， $Q$ 与不同的 $K$ 的乘积之和作为 $K$ 对应的 $V$ 的权重。多头是指将词向量序列矩阵，在词向量纬度上均分为多个不同的词向量序列矩阵，然后分别计算词向量之间的相似度，通过基于点积的自注意力网络层之后再将其合并，最后传入接下来的全连接神经网络。基于点积的多头自注意力机制的公式如下：
$MultiHead(Q,K,V)=Concat(head_1,...,head_h)$
其中， $head_i=Attention(QW_i^Q,KW_i^K,VW_i^V)$
$Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V)=softmax(\frac{QK^T}{\sqrt d_k})V$

八、ERNIE

由百度开发的预训练模型。使用少量数据就能够达到很好的效果。本人使用ernie训练了多标签文本分类模型。一千条数据通过三次迭代准确率达到了78.5%。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

机器学习与人工智能

python# 创建基类# 定义一对多关系# 定义多对一关系# 定义多对多关系（通过关联表）# 关联表（用于多对多关系）SQLAlchemy ORM提供了强大而灵活的数据库操作方式，通过本文的介绍，您应该能够：安装和配置SQLAlchemy定义数据模型和关系执行基本的CRUD操作构建复杂查询管理数据库事务遵循最佳实践SQLAlchemy还有更多高级特性，如混合属性、事件监听、自定义查询等，值得进一

讯飞AI开发者社区

读人形机器人21全球经济格局

1.7.1. 随着机器人接管常规任务，社会对技能的需求转向与自动化互补的技能，包括编程、维护、人工智能开发以及需要创造力、情感智能和复杂人际互动的工作。4.7.1. 为机器人技术和AI制定明确的规章制度，能够确保安全、增进信任，并促进其应用，包括产品安全、数据保护、有道德和负责任地使用AI等方面的标准。初创公司和老牌公司都在投资开发医疗机器人，以提升医疗服务的可及性和质量。2.1.2. 随着对机器