基于自学习的可容错的网页数据提取技术

丁小军 ¹陈建美¹

扫码查看

作者信息

1. 玉林师范学院计算机科学与工程学院广西玉林53700
折叠

摘要

近年来,随着互联网和大数据的发展,越来越多的人开始接触数据分析.而相当大比例的数据来源于互联网,从互联网上方便的获取数据是很多人的需求.传统的网页数据提取技术是针对每种任务分析网页结构,待提取内容格式等方法.这些方法需要人们对正则表达式或者网页解析非常熟悉才能完成.本文提出一种自学习的可容错的网页数据提取技术,可自动学习需要提取的内容,而不需要针对每种任务编写对应的代码,经实验测试,本文提出的技术确实可以满足人们在某些场合的使用需求.

关键词

网页数据提取/自学习/可容错

引用本文复制引用

基金项目

玉林师范学院博士科研( G2018014)

出版年

2020

科学与财富

四川省科教兴川促进会

科学与财富

ISSN：1671-2226

参考文献量3

段落导航