首页|基于自学习的可容错的网页数据提取技术

基于自学习的可容错的网页数据提取技术

扫码查看
近年来,随着互联网和大数据的发展,越来越多的人开始接触数据分析.而相当大比例的数据来源于互联网,从互联网上方便的获取数据是很多人的需求.传统的网页数据提取技术是针对每种任务分析网页结构,待提取内容格式等方法.这些方法需要人们对正则表达式或者网页解析非常熟悉才能完成.本文提出一种自学习的可容错的网页数据提取技术,可自动学习需要提取的内容,而不需要针对每种任务编写对应的代码,经实验测试,本文提出的技术确实可以满足人们在某些场合的使用需求.

丁小军、陈建美

展开 >

玉林师范学院计算机科学与工程学院 广西玉林53700

网页数据提取 自学习 可容错

玉林师范学院博士科研

G2018014

2020

科学与财富
四川省科教兴川促进会

科学与财富

ISSN:1671-2226
年,卷(期):2020.(15)
  • 3