导入自定义词库,特殊字符不分割,识别词性。

导入词库

将词典存入userdict.txt文件中。词与词性用空格分割。

jieba.load_userdict("userdict.txt")

在这里插入图片描述

词库特殊字符不分割

修改jieba/init.py。因为要修改jieba原始文件,所以不使用全局安装jieba,从github上下载后,将jieba目录复制到项目根目录,

re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._%\-]+)", re.U)

修改为

re_han_default = re.compile("(.+)", re.U)

输出词性时,词库特殊字符不分割

修改jieba/posseg/init.py。

re_han_internal = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)")

修改为

re_han_internal = re.compile("(.+)")
import jieba
import jieba.posseg as pseg

jieba.load_userdict("userdict.txt")
prompt = (
        "β-阿朴-8’-胡萝卜素醛能否用于调制肉制品"
)
# seg_list = jieba.cut(prompt, cut_all=False, HMM=True)
# print(", ".join(seg_list))
seg_list = pseg.cut(prompt,use_paddle=True)
for word, flag in seg_list:
    print('%s %s' % (word, flag))
β-阿朴-8’-胡萝卜素醛 tjj
能否 v
用于 v
预制肉制品 food
Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐