摘要
近几年,随着运价系统业务不断增长,服务器节点数量呈现几何式扩张.如何对生产系统近千台服务器及应用进行有效的监控报警,成了企业亟须解决的问题.现有监控系统(如Nagios、Zabbix、Prometheus和Open-Falcon)均无法满足系统对于日志数据深度分析处理并监控报警的能力.基于上述原因,以民航客运运价系统为背景,基于ELK体系架构和Elastalert日志告警插件,实现了一种分布式实时监控报警系统,不仅能够提供硬件监控、服务器基础监控和应用监控,还拥有强大的日志分析处理能力,可识别出异常的微小波动并及时发出警报,帮助运维人员迅速定位问题,并采取相应的措施,为民航客运运价系统的稳定运行提供了坚实的技术保障,也为处理复杂多变的监控需求提供了有力的工具.