首页|基于迭代训练的古文短文本聚类方法研究

基于迭代训练的古文短文本聚类方法研究

扫码查看
传统短文本聚类存在特征关键词稀疏、特征维度高,且忽略文本语义等特点,基于古文《四库全书》和《太平御览》抽取的短文本词条数据集,提出了一种基于BERT+K-means+迭代训练的融合模型对短文本数据集进行聚类研究.使用BERT预训练模型来获取词条短文本的向量表示,将该向量表示作为K-means算法的输入得到初始聚簇结果,利用离群值检测算法将聚簇结果划分为离群值和非离群值集合,使用非离群值训练出的分类器对离群值进行再次划分,迭代进行,直至达到停止标准.将BERT词向量模型与TF-IDF以及Word2vec词向量模型进行对比实验,对比结果证明BERT预训练模型相较TF-IDF和Word2vec两种词向量表示效果有显著的提升,实验还证明了迭代训练对于本文古文短文本数据集的有效性.
Research on Clustering Method of Ancient Chinese Short Texts Using Iterative Training

李晓璐、赵庆聪、齐林

展开 >

北京信息科技大学信息管理学院,北京 100192

绿色发展大数据决策北京市重点实验室,北京 100192

北京信息科技大学经济管理学院,北京 100192

北京世界城市循环经济体系(产业)协同创新中心,北京 100192

展开 >

古文 短文本聚类 BERT模型 K-Means聚类 迭代训练

国家重点研发计划

2017YFB1400400

2022

现代计算机
中大控股

现代计算机

影响因子:0.292
ISSN:1007-1423
年,卷(期):2022.28(2)
  • 6