计算机技术与发展2022,Vol.32Issue(4) :200-204.DOI:10.3969/j.issn.1673-629X.2022.04.034

基于Octoparse的IPE环境数据采集

Research on Octoparse-based IPE Environmental Data Scraping

弓丽栋 尹建华
计算机技术与发展2022,Vol.32Issue(4) :200-204.DOI:10.3969/j.issn.1673-629X.2022.04.034

基于Octoparse的IPE环境数据采集

Research on Octoparse-based IPE Environmental Data Scraping

弓丽栋 1尹建华2
扫码查看

作者信息

  • 1. 中国能源建设集团,北京 100022;对外经济贸易大学,北京 100029
  • 2. 对外经济贸易大学,北京 100029
  • 折叠

摘要

随着对传统数据库数据资料使用的日益饱和,为探索特定情境下的研究问题,科研人员开始迫切寻找更加灵活且多样的数据来源,丰富的Web资源为这一需求提供了快捷通道.为此,针对传统数据采集技术如Python的高编程门槛和高内存消耗等缺点,引入基于C#的Octoparse数据采集技术,分析了该技术在数据采集应用中的原理、优势和不足,并以IPE公众环境研究中心为实验平台,设计了一套具备高复制性、高拓展性的数据采集规则,对2004~2017年间京津冀、长三角、珠三角地区总计758家废水国控重点监控企业的环保处罚记录进行了定向采集.实验表明,相比Python,Octoparse数据采集技术的规则设定更加便捷,批量采集更加稳定,数据导出更加多样,不仅可以有效降低编程门槛,而且能够规避由盲视操作导致的数据丢失,实现所见即所得.该套规则可以为地方环境政策的评估以及区域环境经济的预测提供优质的数据支撑.

关键词

数据采集/Octoparse/Python/公众环境研究中心/政策评估

引用本文复制引用

基金项目

国家自然科学基金面上项目(71874029)

国家自然科学基金面上项目(71473038)

对外经济贸易大学研究生科研创新项目(201803)

对外经济贸易大学研究生科研创新项目(201953)

出版年

2022
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量7
段落导航相关论文