计算机光盘软件与应用2015,Issue(1) :11-12.

分布式主题爬虫的研究与设计

任昱凤
计算机光盘软件与应用2015,Issue(1) :11-12.

分布式主题爬虫的研究与设计

任昱凤1
扫码查看

作者信息

  • 1. 陕西师范大学 计算机科学学院,西安 710000
  • 折叠

摘要

本文通过对分布式技术和主题网络爬虫的研究,设计了一个能处理海量数据的分布式主题爬虫。设计内容主要包括分布式主题网络爬虫的各个功能模块及其实现方法。如页面的主题相关度判定方法、URL去重过滤方法等。主要使用了Hadoop技术和向量空间模型。该分布式主题爬虫的研究与设计为后面分布式主题爬虫的实现奠定了基础。

关键词

主题爬虫/Hadoop/主题相关度

引用本文复制引用

出版年

2015
计算机光盘软件与应用
大恒电子音像出版社

计算机光盘软件与应用

影响因子:0.296
ISSN:1007-9599
被引量1
参考文献量2
段落导航相关论文