因为NLTK库的出现,词频统计的方法更简单,结果也更加准确,NLTK的使用可参考:【自然语言处理】词性标注
在对英文文章实现较为简单的词频统计时,我们可以从以下几个细节入手

  • 英文中两个词之间一定有空格隔开
  • 对英文文章应该先进行小写处理
  • 分词后带有逗号、句号等标点符号的词应该去标点符号
  • 词频较小的词(比如<=3)可以忽略掉

核心代码如下:(contents是一个列表,每个元素是txt文件的每一行)

import string

dic = {}
t = []
for line in contents:           # 每一行
    for i in line:              # 去标点, string.punctuation:返回所有标点集
        if i in string.punctuation:
            line = line.replace(i, " ")
    t = line.lower().split()    # 转小写,并根据空格分词
    for word in t:              # 每个词
        if word not in dic:
            dic[word] = 1
        else:
            dic[word] = dic[word] + 1

res = sorted(dic.items(), key=operator.itemgetter(1), reverse=True)     # 排序的结果是list类型
for item in res:
    if item[1] > 3:
        print(item)

参考:
[1] 利用python做词频统计
[2] python3小技巧之:妙用string.punctuation

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐