国家学术搜索
登录
注册
中文
EN
首页
|
基于主题集中度的新闻文本聚类研究
基于主题集中度的新闻文本聚类研究
引用
认领
扫码查看
点击上方二维码区域,可以放大扫码查看
原文链接
NETL
NSTL
万方数据
中文摘要:
传统的新闻文本聚类方法大多是基于统计和机器学习的方法。针对传统方法存在算法计算量大、训练速度慢等问题,该研究从计量语言学角度,运用主题集中度方法对新闻文本聚类的有效性进行了深入研究。研究发现:(1)通过计算多类目新闻文本的主题集中度、次级主题集中度和比例主题集中度等计量指标,可以提取出文本的主题量化特征;(2)对于不同的主题文本,文本间在主题集中度上存在显著性差异;(3)以主题集中度为文本特征,能较好地提高新闻文本聚类效果。该研究进一步证明,利用结合新闻文本属性和特征的计量研究方法,可以避免使用复杂的分类算法,优化特征提取,加深对分类特征的理解,聚类结果更易于从语言学角度进行解释。
收起全部
展开查看外文信息
作者:
高松、董志成、冯志伟
展开 >
作者单位:
大连外国语大学
黑龙江大学
关键词:
主题集中度
特征提取
文本聚类
计量语言学
出版年:
2024
DOI:
10.20139/j.issn.1001-5795.20240505
外语电化教学
上海外国语大学
外语电化教学
CSSCI
北大核心
影响因子:
4.734
ISSN:
1001-5795
年,卷(期):
2024.
(5)