国家学术搜索
登录
注册
中文
EN
计算机光盘软件与应用
2015,
Issue
(1) :
11-12.
分布式主题爬虫的研究与设计
任昱凤
计算机光盘软件与应用
2015,
Issue
(1) :
11-12.
引用
认领
✕
来源:
NETL
NSTL
维普
万方数据
分布式主题爬虫的研究与设计
任昱凤
1
扫码查看
点击上方二维码区域,可以放大扫码查看
作者信息
1.
陕西师范大学 计算机科学学院,西安 710000
折叠
摘要
本文通过对分布式技术和主题网络爬虫的研究,设计了一个能处理海量数据的分布式主题爬虫。设计内容主要包括分布式主题网络爬虫的各个功能模块及其实现方法。如页面的主题相关度判定方法、URL去重过滤方法等。主要使用了Hadoop技术和向量空间模型。该分布式主题爬虫的研究与设计为后面分布式主题爬虫的实现奠定了基础。
关键词
主题爬虫
/
Hadoop
/
主题相关度
引用本文
复制引用
出版年
2015
计算机光盘软件与应用
大恒电子音像出版社
计算机光盘软件与应用
影响因子:
0.296
ISSN:
1007-9599
引用
认领
被引量
1
参考文献量
2
段落导航
相关论文
摘要
关键词
引用本文
出版年
参考文献
引证文献
同作者其他文献
同项目成果
同科学数据成果