首页|基于主题集中度的新闻文本聚类研究

基于主题集中度的新闻文本聚类研究

扫码查看
传统的新闻文本聚类方法大多是基于统计和机器学习的方法。针对传统方法存在算法计算量大、训练速度慢等问题,该研究从计量语言学角度,运用主题集中度方法对新闻文本聚类的有效性进行了深入研究。研究发现:(1)通过计算多类目新闻文本的主题集中度、次级主题集中度和比例主题集中度等计量指标,可以提取出文本的主题量化特征;(2)对于不同的主题文本,文本间在主题集中度上存在显著性差异;(3)以主题集中度为文本特征,能较好地提高新闻文本聚类效果。该研究进一步证明,利用结合新闻文本属性和特征的计量研究方法,可以避免使用复杂的分类算法,优化特征提取,加深对分类特征的理解,聚类结果更易于从语言学角度进行解释。

高松、董志成、冯志伟

展开 >

大连外国语大学

黑龙江大学

主题集中度 特征提取 文本聚类 计量语言学

2024

外语电化教学
上海外国语大学

外语电化教学

CSSCI北大核心
影响因子:4.734
ISSN:1001-5795
年,卷(期):2024.(5)