大数据分析之中文分词

最近再研究MapReduce对数据进行分析处理，意外发现了中文无法对词进行分析的问题。固选择使用Python的 jieba包来进行中文分词。安装jieba包：pip install jiebajieba的三种模式：import jiebaseg_str = "好好学习，天天向上。"print("/".join(jieba.lcut(seg_str)))# 精简模式，返回一个列表类型的结果print

kabit

681人浏览 · 2020-09-04 14:36:05

kabit · 2020-09-04 14:36:05 发布

最近再研究MapReduce对数据进行分析处理，意外发现了中文无法对词进行分析的问题。固选择使用Python的 jieba包来进行中文分词。
安装jieba包：
pip install jieba

jieba的三种模式：

import jieba

seg_str = "好好学习，天天向上。"

print("/".join(jieba.lcut(seg_str)))    # 精简模式，返回一个列表类型的结果
print("/".join(jieba.lcut(seg_str, cut_all=True)))      # 全模式，使用 'cut_all=True' 指定 
print("/".join(jieba.lcut_for_search(seg_str)))     # 搜索引擎模式