摘要
随着 Internet技术的迅猛发展,传统搜索引擎的局限性如覆盖率低、时效性差、结果不准确等日趋明显,针对以上情况,主题搜索引擎悄然出现。主题爬虫作为主题搜索引擎的核心部分,负责抓取用户感兴趣的与某一主题相关的网页,对网络带宽利用率以及搜索效率都有着重要的影响,因此主题爬虫的研究具有重要的意义。 文章对基于Web链接的HITS算法进行了深入研究,HITS算法基于纯链接分析而忽略了对网页内容的分析,因此容易发生“主题偏移”问题。针对 HITS算法这一缺点,对传统的HITS算法进行了改进,提出了一种结合网页内容和链接结构的综合性搜索策略——W-HITS算法。该算法主要在以下方面进行了改进: (1)去除无效的链接,忽略同一站点的内部链接,给文档作者赋予平等的影响权重,从而使主题选取的结果更加合理客观。 (2)针对传统 VSM模型中的对全文中所有位置的关键词都采用同样的权重计算法进行了改进,采用了不同位置的关键词采用不同的权重计算方法。 (3)通过对网页内容与查询主题相关度分析,给相应节点赋予主题相关度权值,并通过不断地迭代计算,确保具有较高主题相关度的节点获得较高的权威值。 通过实验验证得到了以下的结论:改进后的算法—W-HITS算法与传统的HITS算法相比,在查全率和查准率方面都有所提高,其在一定程度上抑制了“主题漂移”问题。