首页|基于Octoparse的IPE环境数据采集

基于Octoparse的IPE环境数据采集

扫码查看
随着对传统数据库数据资料使用的日益饱和,为探索特定情境下的研究问题,科研人员开始迫切寻找更加灵活且多样的数据来源,丰富的Web资源为这一需求提供了快捷通道.为此,针对传统数据采集技术如Python的高编程门槛和高内存消耗等缺点,引入基于C#的Octoparse数据采集技术,分析了该技术在数据采集应用中的原理、优势和不足,并以IPE公众环境研究中心为实验平台,设计了一套具备高复制性、高拓展性的数据采集规则,对2004~2017年间京津冀、长三角、珠三角地区总计758家废水国控重点监控企业的环保处罚记录进行了定向采集.实验表明,相比Python,Octoparse数据采集技术的规则设定更加便捷,批量采集更加稳定,数据导出更加多样,不仅可以有效降低编程门槛,而且能够规避由盲视操作导致的数据丢失,实现所见即所得.该套规则可以为地方环境政策的评估以及区域环境经济的预测提供优质的数据支撑.
Research on Octoparse-based IPE Environmental Data Scraping

弓丽栋、尹建华

展开 >

中国能源建设集团,北京 100022

对外经济贸易大学,北京 100029

数据采集 Octoparse Python 公众环境研究中心 政策评估

国家自然科学基金面上项目国家自然科学基金面上项目对外经济贸易大学研究生科研创新项目对外经济贸易大学研究生科研创新项目

7187402971473038201803201953

2022

计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
年,卷(期):2022.32(4)
  • 7