目录
可观测性(Observability)在IT系统中的应用及其重要性
大模型的Copilot能帮助什么”特别是在智能运维场景中的应用
主要内容集中在如何使用先进的技术和方法来有效地分析和处理日志数据,以实现全链路的可观测性。
全链路可观测工程与大模型结合---提升运维效能
可观测性(Observability)在IT系统中的应用及其重要性
- 首先,可观测性被定义为从系统外部输出的信息中推断系统内部运行状态的能力,这一能力对于确保系统稳定运行、及时发现并解决问题至关重要。
- 在IT系统中,可观测性的实现依赖于四个核心要素:指标(Metrics)、日志(Logs)、调用链(Traces)和告警(Alerts)。指标提供了系统性能的量化数据,如CPU使用率、内存占用等,帮助监控系统的整体状态。日志则记录了系统的详细运行信息,为问题排查提供了丰富的线索。调用链追踪了系统调用的链路,揭示了请求的处理过程,有助于发现性能瓶颈和潜在问题。告警机制则在系统出现异常时及时通知相关人员,确保问题得到及时处理。
- 图A为当前IT可观测数据实践的现状,即各类可观测数据往往单独建设,缺乏统一的关联和分析。而图B为IT可观测数据关联的重要性,通过整合各类可观测数据,加速信息的获取和问题的定位。这种关联不仅提高了系统的可观测性,还使得故障发现和解决过程更加迅速和高效。
- 可观测性在“五星图”中的价值,即五种对象(指标、日志、调用链、告警和资源)之间的联动。这种联动使得系统运行状态更加透明,有助于从多个角度全面了解系统的健康状况。同时,从资源和日志的视角出发,需要获取所有的可观测数据,并进行挂载治理,以确保数据的完整性和准确性。
如何通过整合多种可观测数据来提高IT系统的可观测性,从而加速故障发现和解决的过程。在现代IT系统中,可观测性已经成为确保系统稳定运行、提升用户体验的关键能力之一。
统一建设可观测数据
一套统一的可观测数据建设方案,其核心在于制定一套数据定义标准,以确保不同厂商和系统间能够顺畅地交换和共享数据。
- 数据定义标准涵盖了log、trace、metric、event等多个方面,明确了这些数据的属性命名规则、数据类型、采集定义规范、序列化方式以及IT资源的标准模型。尽管Opentelemetry已成为业内通用的数据定义标准,但考虑到各厂商因历史项目建设兼容性的需求,云智慧基于其服务数百个客户的经验,提出了兼容OT的可观测数据标准。
- 数据被细分为多个类别,包括应用系统、服务、服务实例、业务监控数据、交易数据以及基础设施数据等。每种数据类型都配备了详细的数据说明和数据来源,确保数据的准确性和可追溯性。
通过这套统一的可观测数据建设方案,企业能够实现对IT系统的全面监控和管理,提升系统的可观测性和运维效率。
统一建设可观测数据的策略与流程
提出了三个核心步骤:数据采集、数据处理和数据存储。
- OmniAgent作为数据采集的核心组件,支持从基础设施到用户体验层各类标准IT资源的统一日志、指标和trace数据的采集。这一步骤确保了数据的全面性和一致性,为后续的数据处理和分析奠定了基础。
- 对于除了OmniAgent标准数据之外的第三方数据,会议强调了在数据处理阶段进行治理的重要性。通过数据治理,可以确保第三方数据也能达到标准化采集的要求,从而与标准数据无缝对接,提升整体数据的质量和可用性。
经过治理的标准数据(包括日志、指标和trace)将统一进入可观测数据库。为了便于数据的读取和分析,推荐使用一套统一的语义CQL(查询语言)进行数据操作。这种统一的数据处理方式不仅提高了数据处理的效率,也降低了数据使用的门槛。还展示了一个数据处理平台的整体架构,该平台涵盖了统一采集、统一处理、统一存储和数据应用等多个环节。这一架构的提出,为可观测数据的统一建设和管理提供了清晰的路径和方案。
通过OmniAgent和数据处理平台实现可观测数据的统一建设和管理,为提升数据质量和应用效率提供了有力的支持。
全链路的构成和监控形态
会议提供了一个从服务实例出发,