小型微型计算机系统2024,Vol.45Issue(10) :2420-2427.DOI:10.20009/j.cnki.21-1106/TP.2023-0347

双特征的短文本聚类研究

Short Text Clustering Study with Dual Features

张桥男 刘渊
小型微型计算机系统2024,Vol.45Issue(10) :2420-2427.DOI:10.20009/j.cnki.21-1106/TP.2023-0347

双特征的短文本聚类研究

Short Text Clustering Study with Dual Features

张桥男 1刘渊2
扫码查看

作者信息

  • 1. 江南大学人工智能与计算机学院,江苏无锡 214122
  • 2. 江南大学人工智能与计算机学院,江苏无锡 214122;江苏省媒体设计与软件技术重点实验室(江南大学),江苏无锡 214122
  • 折叠

摘要

短文本聚类的目的是根据表示空间中的距离来发现数据的语义类别.针对传统文本表示模型面对短文本时会造成特征高维稀疏的问题,以及基于Bert的多特征短文本聚类研究较少的问题,本文研究了一种基于Bert的双特征短文本聚类模型BCCA.首先利用Bert获取词向量表示;其次,利用CNN网络增强对文本局部特征的提取能力和语境感知自注意力网络增强对全局特征提取的能力.最后,为进一步提升聚类效果,将文本表示模块与聚类模块进行联合训练,同时优化文本表示和聚类.为了验证模型性能,在3个数据集上进行实验,实验结果表明,本文提出的模型在数据集SearchSnippets上准确率达到82.8%.

Abstract

The purpose of short text clustering is to discover the semantic classes of data based on the distance in the representation space.In order to address the problem of high-dimensional sparsity of features caused by traditional text representation models for short texts and the problem of less research on Bert-based multi-feature short text clustering,this paper investigates a Bert-based dual-feature short text clustering model BCCA.firstly,Bert is used to obtain word vector representations;secondly,CNN networks are used to en-hance the extraction of local features and context-aware self-referencing.attention network to enhance the ability of global feature ex-traction.Finally,to further enhance the clustering effect,the text representation module is jointly trained with the clustering module to optimize both text representation and clustering.In order to verify the model performance,experiments are conducted on three datasets,and the experimental results show that the proposed model achieves 82.8%accuracy on the dataset SearchSnippets.

关键词

短文本聚类/双特征/语境感知/Bert/CNN

Key words

short text clustering/dual feature/context awareness/Bert/CNN

引用本文复制引用

基金项目

国家自然科学基金项目(61972182)

出版年

2024
小型微型计算机系统
中国科学院沈阳计算技术研究所

小型微型计算机系统

CSTPCDCSCD北大核心
影响因子:0.564
ISSN:1000-1220
参考文献量35
段落导航相关论文