资源下载地址:https://download.csdn.net/download/sheziqiong/85979779
资源下载地址:https://download.csdn.net/download/sheziqiong/85979779
为短文本推荐合适的emoji — 基于上下词及语境的CBOW多层神经网络分类模型研究
Abstract Aiming at the feature sparsity and context dependence of short texts, this paper proposes a short text classification method based on CBOW multilayer neural network. Using the sentiment tendency of short text itself, this paper adopts TF-IDF-CF characterization method, on the other hand, associates the short text context with the CBOW model to optimize the emoji of the chat data. Experiments show that this hybrid model is higher in classification performance better than the traditional Bayesian or SVM classification model. In the Kaggle competition private leaderboard it achieved a higher accuracy of 0.17554.
Key words Short text classification CBOW model Improved weight TF-IDF-CF method Multi-layer neural network classification Data Mining
摘要 针对短文本的特征稀疏性和上下文依赖性等特点, 本文提出一种基于CBOW多层神经网络的短文本分类方法. 利用短文本本身的情感倾向, 一方面采用改进权值的TF-IDF-CF特征化方法, 另一方面关联短文本上下文语境运用CBOW模型对聊天数据进行最优emoji推荐. 实验表明这种混合模型在分类性能上比传统的贝叶斯或支持向量机分类模型高出很多, 在Kaggle竞赛private榜上取得0.17554的较高准确率.
关键词 短文本分类 CBOW模型 改进权值TF-IDF-CF方法 多层神经网络分类 数据挖掘
包含:文档报告和设计源码
目录
1引言 2
2具体方法 2
2.1预处理 2
2.2特征选择方法 TF-IDF 3
2.3朴素贝叶斯分类器 3
2.4词向量 4
2.5CBOW模型 5
2.5.1CBOW模型实现细节 6
3难点与方法选择动机 7
3.1难点①: 短文本特征化 7
3.1.1改进权值的TF-IDF方法选择动机 9
3.2难点②: 发现与创造优秀的模型 10
3.2.1CBOW模型选择动机 10
3.3难点③: 构建神经网络训练模型 11
4 总结 12
5 说明点及复现代码说明 13
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
本文转载自:http://www.biyezuopin.vip/onews.asp?id=16029
1引言
在互联网高速发展的时代, 每天有数以亿计的信息流涌现, 海量的短文本信息中有许多关键的信息, 对于未标记的聊天信息语料库, 很难从中获取有价值的信息, 因此如何从短文本(聊天信息)中整合已有的标记样本, 并对未标记样本进行学习, 成为了短文本分类里一个至关重要的问题.
本文基于一个有趣的例子: ”给短文本配上相应的emoji”, 即给定训练集聊天记录以及每条聊天信息对应的emoji, 模型将给测试集中每条聊天信息推荐最合适的emoji. 给定一条聊天信息(短文本信息), 模型能给出这条信息最适配的emoji, 这可以很好地规约为一个短文本多分类问题.
本文具体叙述了一种基于改进权值的TF-IDF-CF特征化结合朴素贝叶斯的文本分类算法, 并将其和其他多分类算法例如支持向量机进行对比; 本文重点提出了一种嵌入特征的集成学习框架以及向量空间模型CBOW. 并构造全局平均池化等隐含层的全连接神经网络, 来获得较高的分类准确率.

2具体方法
本节简述了在短文本分类中各方法的实现细节. 因为短文本推荐合适的emoji其实可以化归
为一个短文本分类问题, 在下面的叙述中将以短文本分类为研究目标.

本文认为这一类的数据挖掘问题都可以化归为一下几个步骤:

1.数据预处理. 旨在尽可能最大程度留下更多信息, 剔除干扰的离群的文本信息.
2.特征化处理. 获取、处理和提取有意义的特征和属性, 数值化特征化文本数据.
3.建模分析. 利用统计模型或机器学习模型等对数据集进行分类.

资源下载地址:https://download.csdn.net/download/sheziqiong/85979779
资源下载地址:https://download.csdn.net/download/sheziqiong/85979779

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐