首页|基于多阶段的中文人名消歧聚类技术的研究

基于多阶段的中文人名消歧聚类技术的研究

丁海波 肖桐 朱靖波

基于多阶段的中文人名消歧聚类技术的研究

丁海波 1肖桐 1朱靖波1
扫码查看

作者信息

  • 1. 东北大学自然语言处理实验室,辽宁沈阳,110004
  • 折叠

摘要

人名消歧任务被很多的研究者看作为一个聚类任务,任务是将指向实际生活中同一个人的文档聚为同一个类。本文针对人名消歧任务提出一种新的文档聚类策略,该策略采用多阶段的聚类方式来对多个文档进行聚类,并对各种特征在每个阶段中对系统性能的影响做了比较分析。本文主要介绍三阶段聚类体系。在第一阶段,系统首先使用启发式规则对文档进行初步聚类;在第二阶段,系统使用局部上下文特征对文档进行再次聚类;在第三阶段,使用全局上下文特征对文档进行最后一次聚类。实验结果表明,本文提出的聚类策略的系统性能(B-cubed F值)比仅凝聚型层次聚类的系统的性能(B-cubedF值)高出2.41%。

关键词

人名消歧/聚类算法/多阶段聚类

引用本文复制引用

主办单位

中国中文信息学会

会议名称

第六届全国信息检索学术会议

会议时间

2010-08-12

会议地点

黑龙江镜泊湖

会议母体文献

第六届全国信息检索学术会议论文集

页码

316-324

出版时间

2010
段落导航相关论文