现代计算机2022,Vol.28Issue(2) :37-43.DOI:10.3969/j.issn.1007-1423.2022.02.005

基于迭代训练的古文短文本聚类方法研究

Research on Clustering Method of Ancient Chinese Short Texts Using Iterative Training

李晓璐 赵庆聪 齐林
现代计算机2022,Vol.28Issue(2) :37-43.DOI:10.3969/j.issn.1007-1423.2022.02.005

基于迭代训练的古文短文本聚类方法研究

Research on Clustering Method of Ancient Chinese Short Texts Using Iterative Training

李晓璐 1赵庆聪 2齐林3
扫码查看

作者信息

  • 1. 北京信息科技大学信息管理学院,北京 100192
  • 2. 北京信息科技大学信息管理学院,北京 100192;绿色发展大数据决策北京市重点实验室,北京 100192
  • 3. 北京信息科技大学经济管理学院,北京 100192;北京世界城市循环经济体系(产业)协同创新中心,北京 100192
  • 折叠

摘要

传统短文本聚类存在特征关键词稀疏、特征维度高,且忽略文本语义等特点,基于古文《四库全书》和《太平御览》抽取的短文本词条数据集,提出了一种基于BERT+K-means+迭代训练的融合模型对短文本数据集进行聚类研究.使用BERT预训练模型来获取词条短文本的向量表示,将该向量表示作为K-means算法的输入得到初始聚簇结果,利用离群值检测算法将聚簇结果划分为离群值和非离群值集合,使用非离群值训练出的分类器对离群值进行再次划分,迭代进行,直至达到停止标准.将BERT词向量模型与TF-IDF以及Word2vec词向量模型进行对比实验,对比结果证明BERT预训练模型相较TF-IDF和Word2vec两种词向量表示效果有显著的提升,实验还证明了迭代训练对于本文古文短文本数据集的有效性.

关键词

古文/短文本聚类/BERT模型/K-Means聚类/迭代训练

引用本文复制引用

基金项目

国家重点研发计划(2017YFB1400400)

出版年

2022
现代计算机
中大控股

现代计算机

影响因子:0.292
ISSN:1007-1423
参考文献量6
段落导航相关论文