中文文本分类特征选择方法的研究与实现

林艳峰¹

扫码查看

作者信息

1. 西安电子科技大学
折叠

摘要

信息技术的迅猛发展与互联网的快速普及引发了信息的爆炸性增长。文本作为计算机存储信息的重要载体，其增长的速度同样迅速。庞大的文本库中往往存在着许多对人们重要的信息，为了从文本库中快速、有效的获取到这些信息，需要有科学、高效的方法。基于机器学习的文本自动分类技术可以为人们解决庞大的文本库信息混乱的现象，帮助人们将众多的文本进行自动归类提高工作效率。因此，对文本自动分类技术的研究有着重大的实用意义。在文本自动分类过程中，特征选择是其核心环节。高效的文本分类分类器要求组成其向量空间的特征应该带有较强的分类信息，同时向量空间能很好的兼顾各个类别里的文本的信息。本文详细分析了传统特征选择方法包括文档频率（DF）、信息增益（IG）、互信息（MI）、卡方统计（CHI）、期望交叉熵（CE）的优点和不足，并通过比较发现它们都是基于特征词某个方面的重要度进行衡量来决定是否选择特征词，缺乏对特征词重要性的综合衡量。鉴于上述缺陷，本文提出一种基于对特征词重要性进行综合衡量的特征选择方法，新的特征选择方法从特征词的词频、文档频、类内均匀度、特征词全局类别区分度方面对特征词进行综合考虑，其中特征词全局类别区分度是基于互信息的二类信息差值提出的，并引入特征词样本均方差因子来改进其互信息倾向于低频词问题。本文同时还设计并实现了中文文本分类系统，来验证新特征选择方法的有效性，分类系统采用模块化的设计，并实现了KNN分类算法和贝叶斯分类算法，在此系统上进行验证实验。通过对传统的特征选择方法MI、DF、CHI和本文提出的新特征选择方法进行对比实验，利用多项常用的分类效果评价指标对实验结果进行综合性评价分析。实验结果标明新的特征选择方法能够有效的降低特征空间维度，在分类中表现出良好的特征提取效果，反映了类别间的差异度。

关键词

文本分类/特征选择/文档频率/信息增益/KNN算法

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

郑有才/解岩

学位年度

2014

学位授予单位

西安电子科技大学

语种

中文

中图分类号

段落导航