计算机技术与发展2023,Vol.33Issue(7) :181-187.DOI:10.3969/j.issn.1673-629X.2023.07.027

基于BTM和长文本语义增强的用户评论分类

User Comment Classification Based on BTM and Long Text Semantic Enhancement

关慧 宗福焱 曲盼
计算机技术与发展2023,Vol.33Issue(7) :181-187.DOI:10.3969/j.issn.1673-629X.2023.07.027

基于BTM和长文本语义增强的用户评论分类

User Comment Classification Based on BTM and Long Text Semantic Enhancement

关慧 1宗福焱 2曲盼2
扫码查看

作者信息

  • 1. 沈阳化工大学 计算机科学与技术学院,辽宁 沈阳 110142;辽宁省化工过程工业智能化技术重点实验室,辽宁 沈阳 110142
  • 2. 沈阳化工大学 计算机科学与技术学院,辽宁 沈阳 110142
  • 折叠

摘要

用户评论分类是挖掘用户评论中的有用信息,为企业和用户提供有效信息的直接手段,但是用户评论类短文本具有特征稀疏、表达形式不规范、反馈的信息量少等特点,这使得传统分类算法对短文本分类的效果不佳.该文提出了一种融合词向量和BTM主题模型,并以长文本辅助的短文本分类方法.首先,选取特定的长文本,利用LDA主题模型得到长文本的文档-主题分布,选取最大概率主题进一步挖掘该主题下的主题-词项分布,选取概率最大的前n个词项作为短文本的扩充词项并基于匹配规则对用户评论进行长文本语义增强;然后,将扩充后的短文本进行特征扩展,使用Word2vec和LSTM对用户评论进行训练得到词向量的编码特征;同时对用户评论短文本进行基于吉布斯采样的BTM主题模型构建,得到短文本的主题的概率特征;将词向量的编码特征与主题概率特征融合得到扩展后的文本特征,最后利用SVM(支持向量机)方法进行文本分类.对比其他分类方法,该分类方法在准确率、召回率、F-measure上表现均有提高.

关键词

词向量/主题模型/用户评论/短文本扩展/长文本/支持向量机

Key words

word vector/topic model/user comments/short text extension/long text/support vector machine

引用本文复制引用

基金项目

辽宁省2021年度教育科学研究经费项目(LJKZ0434)

出版年

2023
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量13
段落导航相关论文