摘要
为解决海量气象数据并发处理的技术难点,提出了气象数据综合权重算法以及Kafka并发处理性能最优策略.选取湖南省2020 年6 月气象数据作为实验数据集,提取对数据处理系统性能影响最显著的关键特征值,基于熵权法计算关键特征值在流转和处理时消耗基础资源的综合权重,并将其作为气象数据分区处理的客观依据.参照气象大数据云平台架构,设计以Kafka为核心的数据处理模型,通过实验分别得出气象数据在Producer和Consumer端最优Partition、Thread配置策略,从而提升并发处理能力.实验结果表明:对实验数据集进行分区并配置最优策略后,在有限基础资源支撑条件下,消息写入速度从0.69 MB/s提升至37.44 MB/s,消息读取速度从15.65 MB/s提升至67.34 MB/s.该算法和策略已应用在气象卫星遥感数据处理业务,有效解决了海量卫星遥感数据传输处理过程出现消息阻塞的现象,在各类数据处理系统设计中具有较强的参考价值.
基金项目
湖南省自然科学基金(2020JJ4397)
湖南省气象局重点科研基金(NLJS2019-07)