计算机技术与发展2023,Vol.33Issue(3) :207-214.DOI:10.3969/j.issn.1673-629X.2023.03.031

基于Spark Streaming的气象自动站实时流处理与存储系统

Real-time Stream Processing and Storage System of Automatic Weather Station Data Based on Spark Streaming

马彬 李玉涛 许琪
计算机技术与发展2023,Vol.33Issue(3) :207-214.DOI:10.3969/j.issn.1673-629X.2023.03.031

基于Spark Streaming的气象自动站实时流处理与存储系统

Real-time Stream Processing and Storage System of Automatic Weather Station Data Based on Spark Streaming

马彬 1李玉涛 1许琪2
扫码查看

作者信息

  • 1. 江苏省气象信息中心,江苏南京210005
  • 2. 江苏省气侯中心,江苏南京210005
  • 折叠

摘要

在当前大数据技术蓬勃发展的时代,人们对气象数据的实时处理、数据质量、数据存储及大规模查询等要求也越来越高.针对现有气象自动站数据业务落地环节多,任务处理耦合紧但系统部署分散等问题,文中基于Spark Streaming的流式计算框架,研究使用Flume解析收集自动站原始数据,在Spark Streaming中设计融入自动站数据质控算法,最终通过对分布式数据库存储的表设计,使气象自动站数据具备高效率、高质量、高可靠的应用服务能力.性能测试结果表明,基于Spark Streaming的气象自动站数据实时流处理与存储系统,数据从文件采集、解码、流处理至入库的全流程能够在秒级完成,TB级数据查询响应为毫秒级,加权查询为秒级,完全满足自动站数据业务应用需求,从而为进一步提高气象自动站数据质量与服务水平提供基础支撑.

关键词

气象自动站数据/Spark/Streaming/实时处理/Flume/分布式数据库

引用本文复制引用

基金项目

江苏省气象局面上基金(KM202002)

中国气象局小型基建项目(QJ2017006)

出版年

2023
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
被引量1
参考文献量18
段落导航相关论文