首页|一种面向故障短文本的改进聚类方法研究

一种面向故障短文本的改进聚类方法研究

扫码查看
在航空制造领域中,为了解决故障数据质量不高且多为短文本的问题,本文提出了一种改进的短文本聚类方法.首先通过自动编码器模块提取文本的全局语义信息,再通过关键语义提取模块提取文本中的关键语义信息,最终将两者提取的特征融合后使用K-means进行文本聚类.该方法有效地解决了传统自动编码器在训练过程中丢失语义信息和过度依赖原始数据质量的问题.实验表明,本文提出的方法聚类效果优于现有的聚类算法,同时聚类结果也证明了关键语义信息对文本聚类的重要性.
A study of an Improved Clustering Method for Fault-oriented Short Texts
In the field of aeronautical manufacturing,in order to solve the fault data with low quality and mostly short text,this paper pin proposes a text clustering method.Firstly,the method extracts the global se-mantic information of the text through the AutoEncoder module,then extracts the key semantic information in the text through the key semantic extraction module,and finally fuses the two extracted features to perform text clustering using K-Means.The method effectively solves the problems of losing semantic information and over-reliance on raw data quality in the training process of traditionalAutoEncoder.Experiments show that the clustering effect of the method proposed in this paper is better than the existing clustering algorithms,and the clustering results also prove the importance of key semantic information for text clustering.

text clusteringauto encoderK-Meanskey semanticsfeature fusion

周志宇、郭朝阳、余志斌、张士举、杨丰玉

展开 >

中航工业江西洪都航空工业集团有限责任公司,江西 南昌

南昌航空大学软件学院,江西 南昌

文本聚类 自动编码器 K-means 关键语义 特征融合

江西省重点研发计划

20202BBEL53002

2024

科学技术创新
黑龙江省科普事业中心

科学技术创新

影响因子:0.842
ISSN:1673-1328
年,卷(期):2024.(10)
  • 6