首页|一种分布式网络爬虫系统

一种分布式网络爬虫系统

扫码查看
一种分布式网络爬虫系统,适用于网络信息采集领域,包括:管理门户、中心节点服务器、分布式子节点服务器;管理门户是爬虫系统对管理员提供的Web接口,能够查看中心节点服务器和分布式子节点服务器的日志,设置添加主题,更新某个主题的URL种子,配置主题的抓取频率参量,控制爬虫的状态;中心节点服务器和分布式子节点服务器爬虫是系统的主体,完成主题操作、数据抽取器的学习、页面分析以及目标页面的存储。本发明实现了一个爬虫容纳不同主题的抓取,提高了抓取网页的速度和质量不能满足了用户要求。

CN201310274951

CN103310012A

发明专利

2013-07-02

2013-09-18

G06F17/30(2006.01)I

北京航空航天大学

王新河、于雷、尹科、王宝会、王丽华

100191 北京市海淀区学院路37号

中国(CN)