首页|基于VSM的文本相似度计算的研究

基于VSM的文本相似度计算的研究

扫码查看
文本相似度的计算作为其它文本信息处理的基础和关键,其计算准确率和效率直接影响其它文本信息处理的结果。本文提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,另一方面弥补了其对在某一篇文章中大量出现,而在整个训练集中出现较少且对分类有用的信息的错误过滤的不足。此外,还利用特征项在特征选择阶段的权重对TD-IDF方法进行了改进,消除了训练集与文档集分离的状态,提高了相似度计算的精确度。

李艳梅、郭庆琳、唐琦

展开 >

华北电力大学计算机系 北京 102206

华北电力大学计算机系北京102206 北京大学计算机系 北京 100871

文本相似度 特征选择 语义Web 信息处理

华北电力大学

华北电力大学第五届研究生学术交流年会

2007-12-24

北京

华北电力大学第五届研究生学术交流年会论文集

1-4

2007