首页期刊导航|科研信息化技术与应用
期刊信息/Journal information
科研信息化技术与应用
科研信息化技术与应用

双月刊

科研信息化技术与应用/Journal E-science Technology & Application
正式出版
收录年代

    一种基于层次分割和聚合的大数据流水线任务处理方法

    陈天乐蒲军朱小杰崔文娟...
    3-11页
    查看更多>>摘要:近年来,互联网各类型的数据不断增长,数据的应用场景也越来越广泛.如何将各种类型数据自动整合后接入不同的场景平台成为了各界关心的问题.业界通常采用流水线工具进行任务调度,然而大多数流水线工具都无法将任务分割为多个子任务并行执行.因此本文提出一种基于层次分割和聚合的大数据流水线任务处理方法:首先在分割模块中将流水线中的任务分割为多个子任务,然后在合并程序中等待各子任务全部完成,合并结果,最终获得整个任务的完成事件.实现了利用流处理框架处理有限数据集,扩展了流处理系统的使用场景,提升了流水线工具的代码重用性.实验表明,本文方法极大减少了数据库I/O次数,使得本文方法处理DBLP[11数据的速率是Apache NiFi[2]传统处理方法的7倍多.

    大数据流水线批处理流处理

    一种基于聚类的文章自动摘要方法及实现

    唐建权何洪波王闰强
    12-19页
    查看更多>>摘要:本文提出一种基于聚类的自动摘要方法,该方法将文章中所有句子转换为句子向量,并且使用基于AGNES的算法对删除离群点后的句子向量进行聚类,形成多个句子向量个数不超过设定阈值的簇,删除句子向量个数极少的“无用”簇后,从每个簇中挑选出最能代表簇的语义的一个或者两个句子,根据每个句子到语义中心的距离等信息从小到大确定指定数量的几个句子作为关键句,拼接成文章摘要.通过在中国科普博览网站上随机挑选的500篇科普文章上进行实验,上述方法各项指标均优于基于图模型的TextRank算法以及基于统计的方法,证明了该方法的有效性和可用性.

    自动摘要聚类AGNES簇的语义

    相场方程指数时间差分法的能量稳定性分析

    尹吉宪张鉴
    20-30页
    查看更多>>摘要:相场模型已成为计算材料科学领域模拟和预测中尺度水平微观结构演化的一项通用性很强的计算方法.本文针对Allen-Cahn方程、Cahn-Hilliard方程以及它们的耦合模型,介绍了紧致指数时间差分的解法.这种解法相比于显格式、隐格式的求解方案,具备稳定、大时间步长的优势.同时,对于所介绍的紧致指数时间差分法,本文在严格的数学意义的基础上,证明了它们是符合完全离散的能量稳定性原则,并通过数值实验验证了紧致指数时间差分法的能量稳定性、误差以及时间收敛率.

    相场模型Allen-Cahn方程Cahn-Hilliard方程耦合模型紧致指数时间差分法能量稳定性

    一种轻量级分布式作业管理系统的设计与实现

    张裕牛北方
    31-37页
    查看更多>>摘要:信息技术的迅猛发展使得单机服务器已很难满足企业和科研中多租户、多任务的计算需求,如何有效地组织和协调多机进行服务同时屏蔽底层实现细节、减少用户的学习和使用成本则是当前分布式系统研究的难点和重点.为了实现多机之间的分布式作业调度,减少运维和学习成本,本文设计与实现一种轻量级的分布式作业管理系统,理论与实践结果表明该系统能够有效地完成多机之间任务的调度和执行,具备良好的容错能力和可扩展性.

    分布式作业管理系统作业调度轻量级主从模式Web监控

    基于深度学习的ENSO预报方法研究

    何丹丹姜金荣郝卉群林鹏飞...
    38-47页
    查看更多>>摘要:El Ni(n)o-Southern Oscillation (ENSO)作为全球年际尺度气候中最强的现象,对人们的生产生活造成了重大的影响,每年相关领域的研究人员都会对来年的ENSO作出预报.本文提出基于深度学习的ENSO预报方法,通过预测区域海平面温度(SST)来反映ENSO现象.本文分别对特征工程与模型设计两个方面进行了研究,最终确定了基于相关性的特征选择方法、利用Prophet构建特征以及基于Attention机制的Sequence to Sequence预报模型.最后,本文以NCEP数据集的Ni(n)o3.4区域数据为例,分别使用本文提出的模型与集合预报、数值预报的中间耦合模型(ICM)、Sequence toSequence模型和长短时记忆(LSTM)网络进行对比,结果表明,本文提出的基于Attention机制的Sequence to Sequence预报模型在长期预测中的均方根误差(RMSE)比其他方法下降了0.3到0.4,短期预测与其他方法相当,并且区域的RMSE分布稳定.

    ENSOSST特征工程SequencetoSequenceAttention机制

    ABINIT高通量第一性原理计算和数据管理集成框架的研发

    周嘉欣杨小渝王宗国赵旭山...
    48-58页
    查看更多>>摘要:构建集成的高通量材料集成计算平台和材料数据库已成为加快新材料研发的重要基础性工作,高通量材料计算平台MatCloud提供了一个集成的材料自动流程计算框架,软件ABINIT被广泛应用于第一性原理计算研究中.本文基于MatCloud平台研发了ABINIT软件的集成框架,实现了应用ABINIT软件开展结构优化和能量计算的自动计算流程.本文还基于MatCloud平台开发了能够进行数据知识产权保护的Handle标识.以AlxZr1-x合金为例,对其二元能量相图进行了计算,取得了与实验相吻合的结果.

    第一性原理计算高通量材料计算材料性质计算ABINIT软件集成Handle标识

    图结构特征挖掘在预测交易风险中的应用

    曹俊辉吴开超刘莹魏千程...
    59-65页
    查看更多>>摘要:交易风险预测是近年来电子商务和互联网金融领域关心的一个话题.传统的风控方法是基于具体规则来制定的,不能满足大数据时代应用的需要.比较流行的方法是先基于统计的特征挖掘,再基于特征进行模型训练,这也是比较传统的机器学习方法的工作模式.本文将改变传统的人工设计数据特征维度的方法,从图结构中自动地挖掘出特征,再结合最新机器学习LightGBM框架中的分类模型,进行用户交易风险分析.比传统的利用黑名单控制、基于统计特征分析的方式效果更好.同时,结合图的结构特征挖掘的方式在标签样本稀疏的情况下,效果也比传统方式更好.

    结构特征挖掘分类模型风险预测

    SCE大数据平台接入的研究与实现

    韩伊梦王小宁肖海力迟学斌...
    66-73页
    查看更多>>摘要:SCE是中国科学院计算机网络信息中心自主研发的用于聚合各超算中心、高校、研究所高性能计算机资源的科学计算中间件.大数据技术近年来飞速发展,SCE的用户在海量数据处理与大数据计算上的需求日益提升.为了解决这个问题,我们希望可以实验性的将大数据平台与SCE实现对接,为用户提供大数据平台服务.本文利用自建的Hadoop平台为例,并编写程序实现了将其接入SCE中.实验证明,可以通过SCE向Hadoop平台进行提交、查询等一系列操作,正常的将Hadoop平台接入.

    SCEYARN大数据平台多样化资源

    鄱阳湖越冬白鹤空间分布格局

    廖宝雄刘观华
    74-78页
    查看更多>>摘要:为了解越冬白鹤在鄱阳湖的分布状况,对比分析2014年12月18日和2016年12月18日鄱阳湖越冬水鸟同步监测中白鹤(Grus leucogeranus)的记录:2014年总数量为3872只,2016年为984只;2016年白鹤较2014年空间上分布更广、种群规模更小;对白鹤数量进行空间自相关性Moran's I指数测算,2014年呈现集中分布,2016年呈现为随机分布;对白鹤数量进行高/低聚类分析(Getis-Ord General G),2014年呈现较强的高聚类,2016年呈现随机模式.

    鄱阳湖白鹤空间分布空间自相关性聚类特征

    一种分布式爬虫系统的设计与应用

    周逸李新陈远平
    79-87页
    查看更多>>摘要:文献计量学是一种把握学科发展态势的定量分析方法.传统基于文献计量学的研究步骤需手动操作且流程繁琐,针对这一问题,设计并实现了一种基于scrapy-redis分布式爬虫的学科发展态势分析系统.该系统包含了1.负责爬取并解析web of science文献数据的数据预处理层.解决了由于网速不稳定造成的爬虫丢失网页问题,保障数据完整性.设计了一种动态计算参考文献所属学科分布情况的算法2.基于Django搭建的结果展示层,通过web服务向用户展示学科态势分析结果.用户只需输入初始待爬取页面的URL即可通过web服务获得学科态势分析结果.该系统为文献计量学提供了一种更便捷、更快速、扩展性高的分析手段.

    scrapy-redis分布式爬虫文献计量学学科发展态势Django