国家学术搜索
登录
注册
中文
EN
科学与财富
2020,
Issue
(15) :
16.
基于自学习的可容错的网页数据提取技术
丁小军
陈建美
科学与财富
2020,
Issue
(15) :
16.
引用
认领
✕
来源:
NETL
NSTL
万方数据
基于自学习的可容错的网页数据提取技术
丁小军
1
陈建美
1
扫码查看
点击上方二维码区域,可以放大扫码查看
作者信息
1.
玉林师范学院计算机科学与工程学院 广西玉林53700
折叠
摘要
近年来,随着互联网和大数据的发展,越来越多的人开始接触数据分析.而相当大比例的数据来源于互联网,从互联网上方便的获取数据是很多人的需求.传统的网页数据提取技术是针对每种任务分析网页结构,待提取内容格式等方法.这些方法需要人们对正则表达式或者网页解析非常熟悉才能完成.本文提出一种自学习的可容错的网页数据提取技术,可自动学习需要提取的内容,而不需要针对每种任务编写对应的代码,经实验测试,本文提出的技术确实可以满足人们在某些场合的使用需求.
关键词
网页数据提取
/
自学习
/
可容错
引用本文
复制引用
基金项目
玉林师范学院博士科研( G2018014)
出版年
2020
科学与财富
四川省科教兴川促进会
科学与财富
ISSN:
1671-2226
引用
认领
参考文献量
3
段落导航
相关论文
摘要
关键词
引用本文
基金项目
出版年
参考文献
引证文献
同作者其他文献
同项目成果
同科学数据成果