首页|一种分布式爬虫系统的设计与应用

一种分布式爬虫系统的设计与应用

扫码查看
文献计量学是一种把握学科发展态势的定量分析方法.传统基于文献计量学的研究步骤需手动操作且流程繁琐,针对这一问题,设计并实现了一种基于scrapy-redis分布式爬虫的学科发展态势分析系统.该系统包含了1.负责爬取并解析web of science文献数据的数据预处理层.解决了由于网速不稳定造成的爬虫丢失网页问题,保障数据完整性.设计了一种动态计算参考文献所属学科分布情况的算法2.基于Django搭建的结果展示层,通过web服务向用户展示学科态势分析结果.用户只需输入初始待爬取页面的URL即可通过web服务获得学科态势分析结果.该系统为文献计量学提供了一种更便捷、更快速、扩展性高的分析手段.
Design and Application of a Distributed Crawler System

周逸、李新、陈远平

展开 >

中国科学院计算机网络信息中心,北京 100190

中国科学院大学,北京 100049

scrapy-redis 分布式爬虫 文献计量学 学科发展态势 Django

2019

科研信息化技术与应用

科研信息化技术与应用

影响因子:0.364
ISSN:
年,卷(期):2019.10(1)
  • 6