日志作为详细描述系统、应用程序或网络设备等运行状态的载体,忠实地记录着它们运行过程中的每一步操作和每一次交互。日志通常包括但不限于访问日志、操作日志、安全日志等,可为运维人员提供宝贵的信息,为运维管理中的高效决策提供重要依据。
随着工商银行业务的快速发展和IT架构向分布式转型,其信息系统技术栈结构愈加复杂、规模持续扩大,日志种类更多、数据量更大,这对日志监控提出了更高的要求。工商银行统一IT监控系统集成日志(logs)、指标(metrics)、调用链(traces)三大数据类型的监控,在日志监控方面,通过打造通用日志监控系统,对日志进行有效分析和监控,帮助运维人员对系统或应用进行优化与改进,降低故障风险,提升系统稳定性和可靠性,从而保障业务连续性。
一、日志监控现状与挑战
随着日志监控需求的日益增加,工商银行各部门陆续建设了各类日志监控系统,但日志采集和处理较为分散,缺少统一规划,各类日志监控系统通用性不强,日志监控具体面临以下挑战。
1.日志采集难
(1)采集配置难
日志数据分散在各系统、设备、应用端,日志所在环境分散且复杂。一方面,随着系统规模的扩大,采集节点数量快速增加,而每个采集节点的采集对象不尽相同,对不同的采集对象进行手动配置和分批部署易出现遗漏和错误;另一方面,日志采集进程会占用一定的服务器资源,在日志数据量持续增长或出现日志风暴的情况下,采集进程会出现内存、CPU冲高的情况,这将对客户端原应用甚至业务产生严重的影响。
(2)采集管控难
哪些服务器部署了采集介质、哪些没有