摘要
随着现在各种业务系统的复杂多样化,数据分析的实效性要求也变得越来越高,过去的离线分析很多已经不适用于当前的生产需要,针对于大数据的实时分析变得越来越重要.以当前热门的Flink流处理架构为解析平台,构建了分布式实时采集解析流数据处理架构,针对于不同的数据流,只需要更新配置就可以实现业务数据的解析,极大地减少了代码开发量.为了实现该架构的配置文件更新,重点分析了当前分布式解析架构实时更新配置文件时存在的问题,提出了通过流控制的方法来更改Flink的解析逻辑.流控制的方法能够灵活地实时改变代码的解析逻辑,减少程序重启更新的次数,提高了应用效率.通过完成同样的日志解析入库对比了是否使用流控制算法的效果,实验结果表明加入自动流控制算法的解析架构用更少的时间完成解析结构逻辑的开发和程序部署,并且可以大大地减少延迟入库的日志量,从而最大程度地保证了流的实时性.
基金项目
中国国家铁路集团有限公司2018系统性重大项目(P2018X002)
中国国家铁路集团有限公司2019重大项目(K2019X008)