首页|基于半监督学习的中文社交文本事件聚类方法

基于半监督学习的中文社交文本事件聚类方法

扫码查看
面向社交媒体的事件聚类旨在根据事件特征对短文本聚类。目前,事件聚类模型主要分为无监督模型和有监督模型。无监督模型聚类效果较差,有监督模型依赖大量标注数据。基于此,本文提出了一种半监督事件聚类模型(SemiEC),该模型在小规模标注数据的基础上,利用LSTM表征事件,利用线性模型计算文本相似度,进行增量聚类,利用增量聚类产生的标注数据对模型再训练,结束后对不确定样本再聚类。实验表明,SemiEC的性能相比其他模型均有所提高。
基于半监督学习的中文社交文本事件聚类方法
Event clustering on social streams aims to cluster short texts according to event contents.Event clustering models can be divided into unsupervised learning or supervised learning at present.The unsupervised models suffer from poor performance,while the supervised models require lots of labeling data.To address the above issues,this paper proposes a semi-supervised incremental event clustering model SemiEC based on a small-scale annotated dataset.This model encodes the events by LSTM and calculates text similarity by a linear model,and then clusters short texts on social streams.In particular,it uses the samples generated by incremental clustering to retrain the model and redistribute the uncertain samples.Experimental results show that this model SemiEC outperforms the traditional clustering algorithms.

社交媒体事件聚类增量聚类文本相似度

郭恒睿、王中卿、李培峰、朱巧明

展开 >

苏州大学计算机科学与技术学院,苏州,中国

苏州大学计算机科学与技术学院,苏州,中国, 苏州大学人工智能研究院,苏州,中国

社交媒体事件聚类 增量聚类 文本相似度

Chinese National Conference on Computational Linguistic

Haikou(CN)

19th Chinese National Conference on Computational Linguistic

634-644

2020