基于粗集和MBL构建自然语言处理分类器

鲁松 ¹白硕 ¹何清法 ¹郝沁汾¹

扫码查看

作者信息

1. 中国科学院计算技术研究所软件研究室(北京)
折叠

摘要

自然语言知识的自动获取是困难的.在承认自然语言中存在“规律”也存在“例外”的前提下,过分强调“规则”或“例外”的机器学习方法都是偏激的.本文结合基于粗糙集理论的属性值约简和基于相似性推理的Memory-Based Learning方法,提出并构造了一种面向自然语言处理的“规则+例外”分类学习系统,并定义阈值“覆盖样本数”来克服自然语言中严重的数据稀疏问题给机器学习带来的障碍.在汉语多义词消歧的验证实验中,本文给出的分类学习方法较原有基于纯规则或纯例外的分类学习方法在保持较高时间和空间效率的前提下,获得了正确率最高的结果,实现了构造均衡“规则+例外”分类器的目标.

关键词

自然语言处理/机器学习/粗糙集/覆盖样本数

引用本文复制引用

主办单位

中国计算机学会

会议名称

第六届中国人工智能职合学术会议

会议时间

2001-02-01

会议地点

北京

会议母体文献

人工智能进展

页码

265-273

出版时间

2001

段落导航