首页|Scrapy框架下区域人口数据爬虫的设计与实现

Scrapy框架下区域人口数据爬虫的设计与实现

扫码查看
防震减灾对策研究中,区域人口数据起着至关重要的参考作用.用区域人口数据乘以一定震级下对应人口的伤亡率,可以初步判断该区域因地震导致的人员伤亡数.为减小在传统搜索引擎下人工采集数据出现的误差,提高采集海量人口数据的工作效率,以北京市人口数据为例,首先使用Xpath方式分析网页结构布局和数据分布,利用正则表达式进行数据筛选,再对网页进行多层URL爬取,直至获取到北京市社区一级的6859条数据,最后将其保存至MySQL数据库中进行持久化存储.实验结果表明,该爬虫能够有效避免人工采集数据过程中出现的数据误差,有效数据率达83.1%.数据采集过程达到高效、准确及可视化要求.
Design and Implementation of Regional Population Data Crawler Based on Scrapy Framework

李通、姚新强

展开 >

防灾科技学院应急管理学院,河北廊坊065201

天津市地震局震害防御中心,天津300201

Scrapy Python 数据爬取 地理人口数据 爬虫

2021

软件导刊
湖北省信息学会

软件导刊

影响因子:0.524
ISSN:1672-7800
年,卷(期):2021.20(11)
  • 7
  • 15