首页|基于分层结构保留的增量网络爬虫算法

基于分层结构保留的增量网络爬虫算法

扫码查看
为了提高目前爬虫算法抓取结果的有效性,提出了一种旨在获取有效信息的改进网络爬虫算法,主要设计了信息的分层结构保留策略和URL过滤模式.在改进算法中,网络资源定位符被分层存储,在保留信息全部拓扑关系的基础上,将交错复杂的URL网络系统从一个图结构变为一个层次分明的树结构.在执行结构模式下,实现了增量爬虫算法.仿真实验以实际网站的BBS为测试数据,结果表明,改进算法比现有网络爬虫算法在爬行速度、下载效率与信息有效性等方面有较大的优势.因此,分层结构策略与URL过滤模式可以在增加少量计算时间的前提下极大提高爬虫抓取页面的有效性.
Improved crawler algorithm based on hierarchical structure preservation
For improving the validity of Web pages gabbed by Web crawler algorithm,this paper proposed an improved Web crawler algorithm to obtain more useful information by designing a hierarchical structure preservation and URL filter mode.The proposed algorithm saved the website URLs hierarchically to store websites overall topology,which would turn the crisscross complex Web URL system from a graphic structure into a tree structure.The actual website BBS experiments show that the algorithm is much better than the basic Web crawler algorithm in crawling speed and download information such as the usefulness of baking.Furthermore,it provides a performing structure mode for the increment crawler algorithm.As a result,the hierarchical structure strategy and URL filter can improve the Web-grabbing function of Web crawler algorithm with a short amount of computational time.

Web crawlerURL filterhierarchical structure preservationfrequent mode

胡廉民、张泽斌、徐威迪、黄翰、李英

展开 >

乐山师范学院物理与电子工程学院,四川乐山614000

华南理工大学计算机科学与工程学院,广州510006

Oracle甲骨文研究开发中心(深圳)有限公司,广东深圳518075

华南理工大学软件学院,广州510006

乐山师范学院数学与信息科学学院,四川乐山614000

展开 >

网络爬虫 URL过滤器 层次结构保存 频率模型

国家自然科学基金国家自然科学基金广东省自然科学基金教育部高校博士学科点专项科研基金中央高校基本科研业务费重点项目

6100306661170193S2012010010613200901721200352012ZM0083

2013

计算机应用研究
四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心
影响因子:0.93
ISSN:1001-3695
年,卷(期):2013.30(8)
  • 3
  • 2