nlp之朴素贝叶斯算法

原始文本 -> 分词 -> 清洗（去除无用标签，去除听用词，大小写转换等） -> 标准化 -> 特征提取(tf-idf , word2vec) -> 建模（相似度算法，分类算法等AI算法）语言模型：LMp(是|今天)=0.01p(今天)=0.002p(周日|是）=0.001p（周日|今天）=0.0001p（周日）=0.02p（...

dengwei_dw

322人浏览 · 2020-04-08 09:40:49

dengwei_dw · 2020-04-08 09:40:49 发布

原始文本 -> 分词 -> 清洗（去除无用标签，去除听用词，大小写转换等） -> 标准化 -> 特征提取(tf-idf , word2vec) -> 建模（相似度算法，分类算法等AI算法）

语言模型：

LM

p(是|今天)=0.01

p(今天)=0.002

p(周日|是）=0.001

p（周日|今天）=0.0001

p（周日）=0.02

p（是|周日）=0.0002

比较：今天是周日 vs 今天周日是

P(今天是周日）=p(今天）*p(是|今天）*p（周日|是）= 0.002 * 0.01*0.001

p（今天周日是）=p(今天）*p(周日|今天）*p（是|周日）

P(今天是周日） > p（今天周日是）

朴素贝叶斯算法：

垃圾邮件（3封）

点击获取更多信息

购买最新产品优惠

优惠信息点击链接

正常邮件(3封）

明天一起开会

开会信息详见邮件

最新竞品信息

新邮件：

最新产品实惠点击链接

是属于正常邮件还是垃圾邮件？

解决思路如下：

训练模型：

v（词库）={点击获取更多信息购买最新产品优惠链接明天一起开会详见邮件竞品} L(v)=15

p(垃圾)=3/6=1/2 p(正常)=1/2

p(点击|垃圾）=(2+1)/(13+15)=3/28 p(点击|正常)=(0+1)/(10+15)=1/25

p(获得|垃圾）=（2+1）/28=3/28 p(获得|正常）=1/25

p(最新|垃圾）=2/28=1/14 p(最新|正常）=2/25

p(产品|垃圾）=1/14 p(产品|正常）=1/25

p(实惠|垃圾）=3/28 p(实惠|正常）=1/25

p（链接|垃圾）=1/14 p(链接|正常) = 1/25

预测

最新产品实惠点击链接

p（垃圾|邮件) = p(邮件|垃圾) p(垃圾)=1/14*1/14*3/28*3/28*1/14 *1/2

p(正常|邮件）=p(邮件|正常）p（正常）=2/25*1/25*1/25*1/25*1/25*1/2

p（垃圾|邮件) > p(正常|邮件）

所以预判为垃圾邮件

技术共进，成长同行——讯飞AI开发者社区

技术共进，成长同行——讯飞AI开发者社区

更多推荐

cover

深度学习算法：开启智能时代的钥匙

讯飞AI开发者社区

cover

目标检测数据集第017期-基于yolo标注格式的垃圾分类检测数据集(含免费分享)

讯飞AI开发者社区

cover

【论文阅读】Security of Language Models for Code: A Systematic Literature Review

讯飞AI开发者社区

所有评论(0)

查看更多评论

dengwei_dw

已为社区贡献2条内容