国家学术搜索
登录
注册
中文
EN
首页
|
基于自学习的可容错的网页数据提取技术
基于自学习的可容错的网页数据提取技术
引用
认领
扫码查看
点击上方二维码区域,可以放大扫码查看
原文链接
NETL
NSTL
万方数据
中文摘要:
近年来,随着互联网和大数据的发展,越来越多的人开始接触数据分析.而相当大比例的数据来源于互联网,从互联网上方便的获取数据是很多人的需求.传统的网页数据提取技术是针对每种任务分析网页结构,待提取内容格式等方法.这些方法需要人们对正则表达式或者网页解析非常熟悉才能完成.本文提出一种自学习的可容错的网页数据提取技术,可自动学习需要提取的内容,而不需要针对每种任务编写对应的代码,经实验测试,本文提出的技术确实可以满足人们在某些场合的使用需求.
收起全部
展开查看外文信息
作者:
丁小军、陈建美
展开 >
作者单位:
玉林师范学院计算机科学与工程学院 广西玉林53700
关键词:
网页数据提取
自学习
可容错
基金:
玉林师范学院博士科研
项目编号:
G2018014
出版年:
2020
科学与财富
四川省科教兴川促进会
科学与财富
ISSN:
1671-2226
年,卷(期):
2020.
(15)
参考文献量
3