首页|基于Heritrix的网络学术文献获取研究

基于Heritrix的网络学术文献获取研究

Accessing to Online Academic Literature with Heritrix

扫码查看
通过分析研究网络学术文献的主要来源、常用文件格式及Heritrix的工作原理,制定基于Heritrix的网络学术文献获取方案,从种子站点选择或抓取任务配置、文件类型和大小过滤以及学术文献判定等方面对整体方案进行具体设计和分析,并搭建实验平台,编写相关程序进行实验以验证该方案的可行性,最后指出后续研究方向。
Through the analysis of main sources and popular file formats of online academic literature, and Heritrix's work principles, this paper develops a program to access to online academic literature based on Heritrix. Then it designs and analyses the overall pro- gram specifically from seed websites selection, crawl tasks configuration, file type and file size filtration, academic hterature determination. This paper also does experiments by building experimental platform and writing programs to verify the feasibility of this program, and points out the future research direction.

Heritrix academic literature file format PDF document crawl

白如江、王效岳、亢丽芸

展开 >

山东理工大学科技信息研究所,淄博255049

Heritrix 学术文献 文件格式 PDF 文档抓取

山东省自然科学基金山东理工大学青年教师发展支持计划研究成果之一

ZR2011CID25

2012

图书情报工作
中国科学院文献情报中心

图书情报工作

CSSCICHSSCD北大核心
影响因子:2.203
ISSN:0252-3116
年,卷(期):2012.56(11)
  • 2
  • 4