国家学术搜索
登录
注册
中文
EN
计算机光盘软件与应用
2015,
Issue
(1) :
15-16.
基于主题型页面的正文信息抽取技术研究
万文兵
计算机光盘软件与应用
2015,
Issue
(1) :
15-16.
引用
认领
✕
来源:
NETL
NSTL
维普
万方数据
基于主题型页面的正文信息抽取技术研究
万文兵
1
扫码查看
点击上方二维码区域,可以放大扫码查看
作者信息
1.
仪征技师学院,江苏仪征 211400
折叠
摘要
Web页面信息通常包含大量无关结构和HTML标记,而页面主题信息通常淹没其中,如何快速获取Web页面主题信息。本文提出了一种抽取策略,首先判定是否为主题型页面,然后提取网页正文信息,最后利用正则表达式滤除内容块中HTML标记和无关文字。实验结果表明:该方法能准确地完成主题型网页的正文抽取任务。
关键词
主题型页面
/
网页标题
/
正文抽取
引用本文
复制引用
出版年
2015
计算机光盘软件与应用
大恒电子音像出版社
计算机光盘软件与应用
影响因子:
0.296
ISSN:
1007-9599
引用
认领
被引量
1
参考文献量
4
段落导航
相关论文
摘要
关键词
引用本文
出版年
参考文献
引证文献
同作者其他文献
同项目成果
同科学数据成果