计算机技术与发展2020,Vol.30Issue(2) :192-196.

分布式爬虫的研究与实现

Research and Realization of Distributed Crawler Based on Nutch

马蕾 冯锡炜 窦予梓 高天铸 朱睿 吴衍兵
计算机技术与发展2020,Vol.30Issue(2) :192-196.

分布式爬虫的研究与实现

Research and Realization of Distributed Crawler Based on Nutch

马蕾 1冯锡炜 1窦予梓 1高天铸 1朱睿 1吴衍兵1
扫码查看

作者信息

  • 1. 辽宁石油化工大学 计算机与通信工程学院,辽宁 抚顺 113001
  • 折叠

摘要

网络中的数据蕴藏着大量有价值信息,在实际的项目需求中,为了实现能够自动的在网页上对大量数据的数据信息的收集、解析、格式化存储的过程,提出了基于分布式的网络爬虫技术.采用Nutch爬虫框架和Zookeeper分布式协调服务,配合高性能的Key-Value数据库Redis对数据进行存储,采用Solr引擎将抓取信息进行清晰地索引、展示.运用提取页面信息算法优化提取页面信息流程,通过关键词匹配优化算法根据指标从抓取的数据中获取指标相关数据.通过分布式集群的搭建,Nutch项目的实现,及大量数据的采集,验证了基于Nutch的分布式网络爬虫的可行性.通过页面解析流程实验分析,基于Nutch的分布式爬虫与其他爬虫多组实验数据对比结果表明,基于Nutch的分布式爬虫项目在性能和准确度方面都优于传统其他爬虫.

关键词

分布式集群/Nutch/Solr/企业官网

引用本文复制引用

基金项目

辽宁省自然科学基金(20180550130)

出版年

2020
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
被引量7
参考文献量12
段落导航相关论文