首页|基于双三元组网络的易混淆文本情感分类方法

基于双三元组网络的易混淆文本情感分类方法

扫码查看
预训练模型的快速发展使得情感分类任务得到了突破性进展,然而互联网提供的海量数据中存在着大量语义模糊、易混淆的文本,制约了当前多数模型的分类效果.针对易混淆文本对情感分类的负面影响,该文提出了一种基于双三元组网络的易混淆文本情感分类方法.该方法有效解决了传统三元组网络中同类文本特征之间仍存在明显差异的问题,改进了三元样本组合的构建方式,分别从易分类文本和普通文本中构建出两对三元样本组合,并以不同权重进行特征相似度比对,让模型深入挖掘易混淆文本和易分类文本的特征编码差异,充分学习同类别文本间的相似性和混淆类别文本间的差异性,提高了文本特征的聚类效果;同时,在训练过程中将本批次的易混淆文本加入到下一批次进一步训练,更有效地利用了易混淆文本的语义信息,以此提升模型整体的分类效果.在nlpcc2014、waimai_10k和ChnSentiCorp数据集上进行对比实验,实验结果表明,与现有的易混淆文本情感分类方法相比,该方法在准确度和F1 值上具有更好的表现,其中F1 值相较于基准模型提升了 3.16%、2.35%和 2.5%,验证了所提方法的有效性和合理性.
Double Triplet Network for Confusing Text Sentiment Classification
The rapid development of pre-trained models has made a breakthrough in the task of sentiment classifica-tion.However,there is a large number of semantically ambiguous and confusing text in the massive data provided by the Internet,which restricts the effect of most current classification models.To address this issue,a double triplet network for sentiment classification(DTN4SC)is proposed.This method improves the construction method of trip-let sample combinations,by extracting and weighing two kinds of triplet samples from straightforward text and or-dinary text,respectively,which captures the similarity between texts of the same category and the differences be-tween texts of confusing categories.And during the training process,the confusing text in one batch is added to the next batch for further training.Experimental results on nlpcc2014,waimai_10k and ChnSentiCorp show that the proposed method has better performance in accuracy and F1 value compared with the existing sentiment classifica-tion methods of confusing text,by 3.16%,2.35%and 2.5%improvements,respectively.

sentiment classificationtriplet networkhard sample

徐瑞、曾诚、程世杰、张海丰、何鹏

展开 >

湖北大学 计算机与信息工程学院,湖北 武汉 430062

湖北大学 人工智能学院,湖北 武汉 430062

湖北大学 智慧感知系统与安全教育部重点实验室,湖北 武汉 430062

湖北大学 网络空间安全学院,湖北 武汉 430062

展开 >

情感分类 三元组网络 困难样本

国家自然科学基金湖北省重点研发计划项目湖北省重点研发计划项目湖北省重点研发计划项目湖北省技术创新专项

621021362021BAA1882021BAA1842022BAA0442020AEA008

2024

中文信息学报
中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCHSSCD北大核心
影响因子:0.8
ISSN:1003-0077
年,卷(期):2024.38(1)
  • 28