首页|基于Python的异步数据采集与预处理

基于Python的异步数据采集与预处理

扫码查看
本文针对基于Ajax异步传输网站地址难以获取、数据爬取难的问题,以百度健康网站为例,详细介绍了从数据爬取、挖掘到数据预处理的整个过程.首先,通过分析Ajax数据传输地址的特点和规律,确定了骨科类疾病的Ajax数据传输地址.接着,创建用户代理对象以模拟不同浏览器和设备的访问行为,使用XPath地址分析技术定位并提取目标数据,编码实现了对百度健康网站骨科类疾病词条的爬取.在数据预处理阶段,对爬取到的数据进行了清洗和结构化操作,为后续的数据分词和知识图谱构建奠定了基础.最后,引入了基于统计和规则的中文分词工具jieba库,结合医学名词词典,实现了对疾病描述文本的分词处理.通过本文的研究,为基于Ajax技术的网页数据爬取提供了一种有效的解决方案,并对爬取数据进行清洗、预处理,为构建医学知识图谱提供了数据支持.

陶雪娇

展开 >

重庆工程学院,重庆,400056

数据爬取 异步提交 数据清洗 XPath选择器

2024

电子元器件与信息技术

电子元器件与信息技术

ISSN:
年,卷(期):2024.8(7)