使用

sklearn

自带的贝叶斯分类器进行文本分类和参数调优

数据挖掘入门与实战

公众号:

datadw

Part 1:

本篇内容简介

在前一篇文章完整手写一个朴素贝叶斯分类器,完成文本分

类,我们使用首先假设在文档中出现的单词彼此独立,利用

贝叶斯定理,完成了一个简单的文本分类器的编写,在真实

数据的测试上,显示了良好的效果。

其实要是了解

sklearn

的人都应该知道,

这个

python

的机器

学习库,实现了我们常用的大部分机器学习算法,免除了我

们重复造轮子的痛苦。我们使用和上一篇博客同样的数据,

使用

sklearn

自带的贝叶斯分类器完成文本分类,同时和上

一篇文章手写的分类器,

进行分类精度、

速度、

灵活性对比。

Part 2:

朴素贝叶斯的在文本分类中常用模型:

多项式、

伯努

朴素贝叶斯分类器是一种有监督学习,常见有两种模型,多

项式模型

(multinomial model)

即为词频型和伯努利模

(Bernoulli model)

即文档型。二者的计算粒度不一样,多项

式模型以单词为粒度,伯努利模型以文件为粒度,因此二者

的先验概率和类条件概率的计算方法都不同。计算后验概率

时,对于一个文档

d

,多项式模型中,只有在

d

中出现过的

单词,才会参与后验概率计算,伯努利模型中,没有在

d

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐