首页|基于双缓冲的分布式爬虫调度策略的设计与研究

基于双缓冲的分布式爬虫调度策略的设计与研究

扫码查看
互联网的高速发展使得大数据的应用越来越广泛,使得分布式爬虫处于愈来愈重要的地位.目前主流开源爬虫框架在网络通信开销上优化甚少,缺乏一个有效的方案来减少网络开销问题.论文利用对等式架构的爬行器既是任务的消费者又是任务的生产者,提出了任务尽量在本地执行的优化方向.基于双缓冲技术实现的大粒度任务动态负载均衡策略,能有效地降低通信频次,基于高速缓存原理的URL判重方案,以"空间换时间"的方式,有效地提升爬虫URL判重性能.实验结果表明,该策略具有良好的扩展性、鲁棒性,能使分布式系统的性能优势得到更为充分的发挥.
Design and Research of Distributed Reptile Scheduling Strategy Based on Double Buffer

卢照、师军、张耀午、王琦

展开 >

运城学院数学与信息技术学院 运城 044000

陕西师范大学计算机科学学院 西安 710100

分布式爬虫 动态负载均衡 Scrapy-Redis 双缓冲机制

XK-2018039/CY-2019038

2022

计算机与数字工程
中国船舶重工集团公司第七0九研究所

计算机与数字工程

CSTPCD
影响因子:0.355
ISSN:1672-9722
年,卷(期):2022.50(8)
  • 1
  • 10