首页|分布式主题爬虫的研究与设计

分布式主题爬虫的研究与设计

扫码查看
本文通过对分布式技术和主题网络爬虫的研究,设计了一个能处理海量数据的分布式主题爬虫。设计内容主要包括分布式主题网络爬虫的各个功能模块及其实现方法。如页面的主题相关度判定方法、URL去重过滤方法等。主要使用了Hadoop技术和向量空间模型。该分布式主题爬虫的研究与设计为后面分布式主题爬虫的实现奠定了基础。

任昱凤

展开 >

陕西师范大学 计算机科学学院,西安 710000

主题爬虫 Hadoop 主题相关度

2015

计算机光盘软件与应用
大恒电子音像出版社

计算机光盘软件与应用

影响因子:0.296
ISSN:1007-9599
年,卷(期):2015.(1)
  • 1
  • 2