一种基于SVM的主动学习文本分类方法

宋鑫颖 ¹周志逵¹

扫码查看

作者信息

1. 北京理工大学计算机科学技术学院,北京,100081
折叠

摘要

文本分类指在给定类别体系下,根据文本内容自动确定文本所属类别.目前流行的分类方法是SVM(Support Vector Machine,支持向量机),为取得较高的分类性能,避免遗漏具有代表性的样本,通常的做法是使用尽可能多的训练样本.可是完备的训练文本库不仅面临着数量和权威性问题,还面临着时效性问题.比如Web新闻栏目,通过文本自动分类为政治、体育、军事等类别,反映这些类别的代表性样本每天都在变化,这就需要定期选用新样本更新分类器.传统的方法是人工选择新样本并标注其类别,加入训练集重新训练分类器,这样需要投入大量的人力和时间,效率低下. 如果使用已有的分类器自动选择新样本更新自己,则能节省大量的人力,这就是主动学习.本文研究了已有的主动学习方法并对其进行改进,提出了一种新的主动学习方法,很好地解决了小规模标注样本集的分类问题,提高了训练速度,增强了文本分类的智能化程度。

关键词

SVM/主动学习/文本自动分类/支持向量机/标注样本集

引用本文复制引用

主办单位

中国计算机学会

会议名称

第二十三届中国数据库学术会议（NDBC2006）

会议时间

2006-11-01

会议地点

广州

会议母体文献

计算机科学

页码

288-290

出版时间

2006

段落导航