DevSecOps流程实践:从问题管理到混沌工程
在当今数字化的时代,DevSecOps 流程对于保障系统的安全、稳定和高效运行至关重要。它整合了开发、安全和运维的各个环节,通过应用 DevOps 原则和自动化技术,减少人力负担,促进持续学习和改进。下面将详细介绍 DevSecOps 流程中的关键环节。
问题管理
问题管理是 ITIL 中的一个重要流程,与 DevSecOps 原则紧密契合。其主要目标是预防事件发生,并将无法预防的事件影响降至最低。它通过深入分析事件的根本原因,采取相应措施,有助于构建 DevSecOps 所需的学习文化和持续改进机制。
以 Wiley 公司为例,该公司高度重视问题管理,专门设立了可用性经理,负责管理产品和服务的可用性与性能。同时,事件经理兼任问题经理,双重角色的设置使得解决事件的人员能够采取措施防止事件再次发生。通过这种协同努力,Wiley 成功解决了近 200 个未决问题,减少了事件的数量和严重程度,所有应用程序的可用性提高了 0.64%。
问题管理的第一步是识别问题,可通过分析事件趋势来确定常见的根本原因。许多组织会对所有重大事件(通常定义为 P1 或 P2 事件)进行问题管理,以确保每个重大事件都能得到跟进,推动持续改进。但需要注意的是,问题管理不应仅针对重大事件,小事件也可能造成严重影响,问题经理和可用性经理应关注事件趋势和重复事件。
事件复盘(PIR)是问题管理的第一步,也是组织学习的好机会。在复盘过程中,可能会确定根本原因或采取临时解决方案。如果根本原因已知,问题可归类为已知错误,直到问题得到解决;如果无法确定根本原因,则可采取措施改进处理和准备工作或制定变通方案。
对于中大