基于Python的异步数据采集与预处理

陶雪娇¹

扫码查看

作者信息

1. 重庆工程学院,重庆,400056
折叠

摘要

本文针对基于Ajax异步传输网站地址难以获取、数据爬取难的问题,以百度健康网站为例,详细介绍了从数据爬取、挖掘到数据预处理的整个过程.首先,通过分析Ajax数据传输地址的特点和规律,确定了骨科类疾病的Ajax数据传输地址.接着,创建用户代理对象以模拟不同浏览器和设备的访问行为,使用XPath地址分析技术定位并提取目标数据,编码实现了对百度健康网站骨科类疾病词条的爬取.在数据预处理阶段,对爬取到的数据进行了清洗和结构化操作,为后续的数据分词和知识图谱构建奠定了基础.最后,引入了基于统计和规则的中文分词工具jieba库,结合医学名词词典,实现了对疾病描述文本的分词处理.通过本文的研究,为基于Ajax技术的网页数据爬取提供了一种有效的解决方案,并对爬取数据进行清洗、预处理,为构建医学知识图谱提供了数据支持.

关键词

数据爬取/异步提交/数据清洗/XPath选择器

引用本文复制引用

出版年

2024

电子元器件与信息技术

ISSN：

段落导航