计算机光盘软件与应用2015,Issue(1) :15-16.

基于主题型页面的正文信息抽取技术研究

万文兵
计算机光盘软件与应用2015,Issue(1) :15-16.

基于主题型页面的正文信息抽取技术研究

万文兵1
扫码查看

作者信息

  • 1. 仪征技师学院,江苏仪征 211400
  • 折叠

摘要

Web页面信息通常包含大量无关结构和HTML标记,而页面主题信息通常淹没其中,如何快速获取Web页面主题信息。本文提出了一种抽取策略,首先判定是否为主题型页面,然后提取网页正文信息,最后利用正则表达式滤除内容块中HTML标记和无关文字。实验结果表明:该方法能准确地完成主题型网页的正文抽取任务。

关键词

主题型页面/网页标题/正文抽取

引用本文复制引用

出版年

2015
计算机光盘软件与应用
大恒电子音像出版社

计算机光盘软件与应用

影响因子:0.296
ISSN:1007-9599
被引量1
参考文献量4
段落导航相关论文