计算机技术与发展2020,Vol.30Issue(5) :165-169.

科研论文爬取与多维度分析系统的设计与实现

Design and Implementation of Scientific Papers Crawling and Multidimensional Analysis System

王树梅 尚衍亮
计算机技术与发展2020,Vol.30Issue(5) :165-169.

科研论文爬取与多维度分析系统的设计与实现

Design and Implementation of Scientific Papers Crawling and Multidimensional Analysis System

王树梅 1尚衍亮1
扫码查看

作者信息

  • 1. 江苏师范大学 计算机科学与技术学院,江苏 徐州 222111
  • 折叠

摘要

信息时代的到来,知网(CNKI)成为国内最大的论文数据库,如何高效地获取论文信息,挖掘论文价值,成为了一个亟待解决的问题.目前,论文检索工具多为通用爬虫,只能采集到部分少量的信息,且包含着不符合用户要求的信息,因此实现一个集聚焦论文信息采集和实时论文数据分析的系统变得极为重要.该系统针对如何高效获取论文信息,挖掘论文价值等问题,使用Python Django框架和Celery框架将网站和爬虫结合,实现了爬虫的自动化.系统分为论文爬取模块和多维度分析模块.其中,论文爬取模块使用Selenium,模拟用户点击,并使用Beutifulsoup4和Requests解析网页内容,最后将获取到的论文信息存储到MySQL数据库中.多维度分析模块使用High Charts进行数据展示,主要对与关键词相关的论文发表趋势,高产作者、机构等信息进行分析.通过该系统,科研学者可以方便快捷地获取到研究领域的各种论文信息,为以后的深入研究提供数据支撑.

关键词

论文爬取/多维度分析/数据挖掘/信息采集/爬虫自动化

引用本文复制引用

基金项目

国家自然科学基金(61673196)

出版年

2020
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
被引量1
参考文献量10
段落导航相关论文