首页|一种基于层次分割和聚合的大数据流水线任务处理方法

一种基于层次分割和聚合的大数据流水线任务处理方法

扫码查看
近年来,互联网各类型的数据不断增长,数据的应用场景也越来越广泛.如何将各种类型数据自动整合后接入不同的场景平台成为了各界关心的问题.业界通常采用流水线工具进行任务调度,然而大多数流水线工具都无法将任务分割为多个子任务并行执行.因此本文提出一种基于层次分割和聚合的大数据流水线任务处理方法:首先在分割模块中将流水线中的任务分割为多个子任务,然后在合并程序中等待各子任务全部完成,合并结果,最终获得整个任务的完成事件.实现了利用流处理框架处理有限数据集,扩展了流处理系统的使用场景,提升了流水线工具的代码重用性.实验表明,本文方法极大减少了数据库I/O次数,使得本文方法处理DBLP[11数据的速率是Apache NiFi[2]传统处理方法的7倍多.
A Hierarchical Splitting and Merging Task Management Method in Big Data Dataflow Processing

陈天乐、蒲军、朱小杰、崔文娟、冯伟华、王锐、杜一、周园春

展开 >

中国科学院计算机网络信息中心,北京 100190

中国科学院大学,北京 100049

中国烟草总公司郑州烟草研究院,河南 郑州 450001

大数据 流水线 批处理 流处理

中国烟草总公司科技重大专项中国烟草总公司科技重大专项

110201801019SJ-01110201801020SJ-02

2019

科研信息化技术与应用

科研信息化技术与应用

影响因子:0.364
ISSN:
年,卷(期):2019.10(1)
  • 1