首页|基于新闻网页主题要素的网页去重方法研究

基于新闻网页主题要素的网页去重方法研究

扫码查看
网页检索结果中,用户经常会得到内容相同的冗余页面。本文提出了一种通过新闻主题要素学习新闻内容的新闻网页去重算法。该方法的基本思想是:首先,抽取新闻要素中关于事件发生的时间和地点短语;然后,通过抽取的时间和地点短语抽取新闻的内容;最终,根据学习的新闻内容通过计算它们的相似度来判断新闻网页的重复度。实验结果表明,该方法能够完成针对新闻内容的新闻网页的去重,并得到较高的查全率和查准率。
he study on duplicated removal algorithm web pages based on elements of news subject

Elements of News SubjectFuzzy MatchingDuplicate Removal Algorithm

张彦、张永奎、王鹏、刘睿

展开 >

自动化技术、计算机技术(计算技术、计算机技术)

新闻主题要素 模糊匹配 去重算法

首发时间:2006-09-18