LDA主题词提取完整实战代码详细代码数据

pythonyanyan

905人浏览 · 2024-03-22 14:28:42

pythonyanyan · 2024-03-22 14:28:42 发布

import pandas as pd
from gensim.models import LdaModel
from gensim.corpora import Dictionary
from wordcloud import WordCloud
import matplotlib
import matplotlib.pyplot as plt
matplotlib.rcParams['font.sans-serif'] = ['SimHei']
matplotlib.rcParams['axes.unicode_minus'] = False
# 读取CSV文件


import jieba
from gensim import corpora, models
import re

# 读取文本数据
csv_file_path = '合并.csv'
df = pd.read_csv(csv_file_path)

# 将文本数据转换为列表
text_data = df['登革热是蚊子传播的，这个和新冠没关系吧？'].tolist()
print(text_data)
# 分词处理
texts = [[word for word in jieba.cut(document)] for document in text_data]
textss=[]
for line in texts:
    temp=[]
    for w  in line:
        if len(str(w))>2:
            temp.append(w)
    if len(temp)>2:
        textss.append(temp)
# print(texts)
# 创建词袋模型
dictionary = corpora.Dictionary(textss)

# 转换文档为词袋表示
corpus = [dictionary.doc2bow(text) for text in texts]

# 训练LDA模型
lda_model = LdaModel(corpus, id2word=dictionary, num_topics=10)

# 打印主题词
topics = lda_model.print_topics(num_words=5)
for topic in topics:
    print(topic)

技术共进，成长同行——讯飞AI开发者社区

更多推荐

机器学习与人工智能

python# 创建基类# 定义一对多关系# 定义多对一关系# 定义多对多关系（通过关联表）# 关联表（用于多对多关系）SQLAlchemy ORM提供了强大而灵活的数据库操作方式，通过本文的介绍，您应该能够：安装和配置SQLAlchemy定义数据模型和关系执行基本的CRUD操作构建复杂查询管理数据库事务遵循最佳实践SQLAlchemy还有更多高级特性，如混合属性、事件监听、自定义查询等，值得进一

讯飞AI开发者社区

【大模型入门书籍】掌握AI大模型的必备宝典《人工智能通识基础（大模型篇）》！

讯飞AI开发者社区

视频内容审核API选型指南：10大主流接口功能对比

整体来看，视频识别接口已经成为企业保障内容安全、优化审核效率的重要工具。从基础的违规检测到智能化的场景识别，不同API的功能差异直接决定了平台的合规与体验效果。企业在选择时，不仅要关注接口的识别准确率与处理速度，更要结合自身业务场景、成本投入及扩展需求，找到最契合的解决方案。未来，随着人工智能与深度学习技术的不断演进，视频识别接口的能力将更加智能化与精细化，帮助企业在激烈的内容竞争中脱颖而出。常见