使用jieba测试分词并且增加自定义字典

GIS从业者

2910人浏览 · 2022-08-10 14:20:23

GIS从业者 · 2022-08-10 14:20:23 发布

1、github下载源码

https://github.com/fxsjy/jieba
也可以直接用pip安装

pip install jieba

2、拷贝测试代码测试

稍微修改了下文件路径方面的代码，路径如下
在这里插入图片描述

import time
import sys
sys.path.append("../")
import jieba
jieba.initialize()

# 输入需要分词的文件路径
url = "test/data/zrbzdz.txt"
content = open(url,"r",encoding='utf-8-sig').read()
t1 = time.time()
words = "/ ".join(jieba.cut(content))

t2 = time.time()
tm_cost = t2-t1

# 输出分词后的文件路径
log_f = open("test/data/output/1.log","wb")
log_f.write(words.encode('utf-8'))
log_f.close()

print('cost ' + str(tm_cost))
print('speed %s bytes/second' % (len(content)/tm_cost))

这边测试了5万多条标准地名地址数据
在这里插入图片描述
速度还是挺快的，大概只要13秒

结果肯定有些地方是不如人意的，毕竟是地名地址数据，看这里就有问题了
在这里插入图片描述
下一步添加自定义字典

3、添加自定义字典

如果用单个添加，感觉不太方便，用load_userdict方法添加，如果数据量大的话，又太慢，所以直接添加到结巴分词自身词库"dict.txt"当中。
github源码路径在这里
在这里插入图片描述
python安装路径在这里

（1）、打开把自己的字典添加进去就行，注意格式

词词频词性
我这边词频和词性大概写的

福基岗村 3 n

（2）、添加后保存

（3）、删除jieba.cache

每次执行脚本，会提示加载的jieba.cache路径，我们先把它删除
在这里插入图片描述

（4）、重新执行脚本

脚本没变，结果变了，说明我们自定义的字典起作用了，有其它词数据可以一直加进去
在这里插入图片描述

技术共进，成长同行——讯飞AI开发者社区

更多推荐

PHP与人工智能：结合案例与可能性探索

讯飞AI开发者社区

[论文阅读] 人工智能 + 软件工程 | 真实场景下GitHub Copilot生产力之谜：2年数据揭示客观提交无提升，开发者却直呼“好用”

讯飞AI开发者社区

上下文工程驱动智能体向通用人工智能

例如在文章开头，我们举的产品经理和工程师之间的那一段对话，一个高质量智能体，不再只是让大模型回答用户的问题，而是通过上下文工程，帮助大模型在回答前获得更加结构化的输入，包括项目状态、需求文档、任务历史、甚至团队氛围，实现大模型更好的理解当前的任务规划、团队过往的沟通隐患、对方的工作状态与担忧、文档/知识库的实时状态等等。这和我们维护我们手机上内存很像，一开始所有应用和历史信息都保留，但当手机出现运