【自然语言处理】最简单的词频统计

因为NLTK库的出现，词频统计的方法更简单，结果也更加准确，NLTK的使用可参考：【自然语言处理】词性标注在对英文文章实现较为简单的词频统计时，我们可以从以下几个细节入手英文中两个词之间一定有空格隔开对英文文章应该先进行小写处理分词后带有逗号、句号等标点符号的词应该去标点符号词频较小的词（比如<=3）可以忽略掉核心代码如下：（contents是一个列表，每个元素是txt文件的每一行）impo

御用厨师

1312人浏览 · 2021-08-29 23:47:44

御用厨师 · 2021-08-29 23:47:44 发布

因为NLTK库的出现，词频统计的方法更简单，结果也更加准确，NLTK的使用可参考：【自然语言处理】词性标注
在对英文文章实现较为简单的词频统计时，我们可以从以下几个细节入手

英文中两个词之间一定有空格隔开
对英文文章应该先进行小写处理
分词后带有逗号、句号等标点符号的词应该去标点符号
词频较小的词（比如<=3）可以忽略掉

核心代码如下：（contents是一个列表，每个元素是txt文件的每一行）

import string

dic = {}
t = []
for line in contents:           # 每一行
    for i in line:              # 去标点, string.punctuation:返回所有标点集
        if i in string.punctuation:
            line = line.replace(i, " ")
    t = line.lower().split()    # 转小写，并根据空格分词
    for word in t:              # 每个词
        if word not in dic:
            dic[word] = 1
        else:
            dic[word] = dic[word] + 1

res = sorted(dic.items(), key=operator.itemgetter(1), reverse=True)     # 排序的结果是list类型
for item in res:
    if item[1] > 3:
        print(item)

参考：
[1] 利用python做词频统计
[2] python3小技巧之：妙用string.punctuation

技术共进，成长同行——讯飞AI开发者社区

更多推荐

机器学习与人工智能

python# 创建基类# 定义一对多关系# 定义多对一关系# 定义多对多关系（通过关联表）# 关联表（用于多对多关系）SQLAlchemy ORM提供了强大而灵活的数据库操作方式，通过本文的介绍，您应该能够：安装和配置SQLAlchemy定义数据模型和关系执行基本的CRUD操作构建复杂查询管理数据库事务遵循最佳实践SQLAlchemy还有更多高级特性，如混合属性、事件监听、自定义查询等，值得进一

讯飞AI开发者社区

AI革新药物研发：基因组大数据新突破

基因组大数据分析已成为药物研发的核心环节，人工智能（AI）技术通过高效处理海量数据，显著加速了靶点发现、药物筛选和个性化治疗等流程。来源网站：pyklqwq.cn/article/25jNXMc/39830.html。来源网站：pyklqwq.cn/article/25KljJd/61632.html。来源网站：pyklqwq.cn/article/25AECkl/15960.html。来源网站：

讯飞AI开发者社区

多模态上下文工程化落地：提示工程架构师的ROI提升策略

在当今数字化浪潮中，人工智能技术日新月异。多模态数据，即包含文本、图像、音频、视频等多种形式的数据，正变得无处不在。想象一下，我们生活在一个信息丰富多样的世界里，就如同走进了一个大型的多媒体图书馆，每本书可能是文本形式，墙上挂着画作（图像），角落里播放着音乐（音频），还有视频在循环展示各种内容。多模态数据就像这个图书馆里丰富多样的信息载体。对于提示工程架构师而言，如何有效地处理和利用多模态上下文信