摘要
用户评论分类是挖掘用户评论中的有用信息,为企业和用户提供有效信息的直接手段,但是用户评论类短文本具有特征稀疏、表达形式不规范、反馈的信息量少等特点,这使得传统分类算法对短文本分类的效果不佳.该文提出了一种融合词向量和BTM主题模型,并以长文本辅助的短文本分类方法.首先,选取特定的长文本,利用LDA主题模型得到长文本的文档-主题分布,选取最大概率主题进一步挖掘该主题下的主题-词项分布,选取概率最大的前n个词项作为短文本的扩充词项并基于匹配规则对用户评论进行长文本语义增强;然后,将扩充后的短文本进行特征扩展,使用Word2vec和LSTM对用户评论进行训练得到词向量的编码特征;同时对用户评论短文本进行基于吉布斯采样的BTM主题模型构建,得到短文本的主题的概率特征;将词向量的编码特征与主题概率特征融合得到扩展后的文本特征,最后利用SVM(支持向量机)方法进行文本分类.对比其他分类方法,该分类方法在准确率、召回率、F-measure上表现均有提高.
基金项目
辽宁省2021年度教育科学研究经费项目(LJKZ0434)