jieba导入自定义词库，特殊字符不分割，识别词性

导入自定义词库，特殊字符不分割，识别词性。

yuan86_12

2359人浏览 · 2022-10-25 11:50:52

yuan86_12 · 2022-10-25 11:50:52 发布

导入自定义词库，特殊字符不分割，识别词性。

导入词库

将词典存入userdict.txt文件中。词与词性用空格分割。

jieba.load_userdict("userdict.txt")

在这里插入图片描述

词库特殊字符不分割

修改jieba/init.py。因为要修改jieba原始文件，所以不使用全局安装jieba，从github上下载后，将jieba目录复制到项目根目录，

re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._%\-]+)", re.U)

修改为

re_han_default = re.compile("(.+)", re.U)

输出词性时，词库特殊字符不分割

修改jieba/posseg/init.py。

re_han_internal = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)")

修改为

re_han_internal = re.compile("(.+)")

import jieba
import jieba.posseg as pseg

jieba.load_userdict("userdict.txt")
prompt = (
        "β－阿朴－8’－胡萝卜素醛能否用于调制肉制品"
)
# seg_list = jieba.cut(prompt, cut_all=False, HMM=True)
# print(", ".join(seg_list))
seg_list = pseg.cut(prompt,use_paddle=True)
for word, flag in seg_list:
    print('%s %s' % (word, flag))

β－阿朴－8’－胡萝卜素醛 tjj
能否 v
用于 v
预制肉制品 food

技术共进，成长同行——讯飞AI开发者社区

更多推荐

【人工智能】启发式搜索（Heuristic Search）完全入门指南

讯飞AI开发者社区

基于Java的springboot/SSM+vue.js+uniapp小程序的计算思维与人工智能学习网站附带文章源码部署视频讲解等

讯飞AI开发者社区

号课堂§2.2：声明范式

声明式语言——尤其是函数式语言和逻辑式语言——擅长基于数理逻辑的应用，如人工智能、符号处理、数据库、编译器等，对基于业务逻辑的、尤其是交互式或事件驱动型的应用就不那么得心应手了。命令式编程模拟电脑运算，是行动导向的，关键在于定义解法，即“怎么做”，因而算法是显性而目标是隐性的；声明式编程模拟人脑思维，是目标驱动的，关键在于描述问题，即“做什么”，因而目标是显性而算法是隐性的。”冒号娓娓道来，“除了