基于VSM的文本相似度计算的研究

扫码查看

原文链接

NETL

中文摘要：文本相似度的计算作为其它文本信息处理的基础和关键，其计算准确率和效率直接影响其它文本信息处理的结果。本文提出改进的DF算法和TD-IDF算法，一方面利用了DF算法具有线性的时间复杂度，比较适合大规模文本处理的特点，另一方面弥补了其对在某一篇文章中大量出现，而在整个训练集中出现较少且对分类有用的信息的错误过滤的不足。此外，还利用特征项在特征选择阶段的权重对TD-IDF方法进行了改进，消除了训练集与文档集分离的状态，提高了相似度计算的精确度。

作者：

李艳梅、郭庆琳、唐琦

展开 >

作者单位：

华北电力大学计算机系北京 102206

华北电力大学计算机系北京102206 北京大学计算机系北京 100871

关键词：

文本相似度特征选择语义Web 信息处理

主办单位：

华北电力大学

会议名称：

华北电力大学第五届研究生学术交流年会

会议时间：

2007-12-24

会议地点：

北京

会议母体文献：

华北电力大学第五届研究生学术交流年会论文集

页码：

1-4

出版时间：

2007