作者:来自 Elastic Ty Bekiares
现代基础设施的复杂性和规模需要同样智能的可观测性工具来有效监控它。
还记得以前扩容意味着订购新服务器并将它们安装在数据中心吗?还记得云服务商第一次提供点击按钮即可访问几乎无限的虚拟机吗?还记得 Kubernetes 让基础设施根据需求自动扩展变得简单吗?人工智能(AI)如今推动更快速的软件开发和更智能的编排,再次以指数级方式提升 IT 基础设施的规模。
欢迎来到现代可观测性和基础设施的全新时代!如果你作为 SRE 或 IT 运维人员感觉脚下的环境在不断变化,你并不孤单。我们构建和运行系统的方式经历了巨大变革,而我们用来监控这些系统的工具也需要现代化以跟上步伐。这不仅仅是进化,而是一个 “万物皆变” 的时刻。
基础设施规模和复杂性的快速增长,造成了基础设施复杂度与当前部署的可观测性工具成熟度之间的差距。这个差距暴露出数据量、数据准确性、信号关联,最终影响成功进行根因分析(root cause analysis - RCA)的能力等问题。
那么,我们如何弥合这个差距呢?本文将讨论四项对现代可观测性成功至关重要的关键技术。
无妥协的存储和搜索
随着系统变得更复杂,它们直观上会生成更多的遥测数据。没有辅助,随着基础设施规模的扩大,可观测性成本也会同步上升,给组织带来重大财务负担。
有多种现有技术可用于管理大量的可观测性数据。虽然指标降采样、跟踪采样和日志去重等技术在特定场景下有帮助,但如果使用不当,会带来显著缺陷。忽略数据源或有选择地移除上下文元数据的策略通常不推荐。正如我们稍后讨论的,可观测性的未来高度依赖机器学习(ML)和人工智能(AI)的辅助。这些技术需要高保真数据。最后,去猜测新日志文件的价值是全职工作,你的时间更应投入到解决问题上。
幸运的是,有更好的解决方案:通过大幅降低存储成本,你可以不妥协搜索性地存储所有数据。怎么做到?首先,以分离索引元数据和数据本身的方式摄取数据。这让后端可以支持快速搜索,而无需将所有数据常驻缓存。然后应用先进的数据组织和压缩技术。最后,将数据存储在超便宜的对象存储中,并配备缓存层。这种策略让组织能够保持 ML 和 AI 需要的完整数据保真度,同时避免成本过高。
OpenTelemetry:为所有人提供 APM!
现代可观测性中最大的变化之一是 OpenTelemetry(OTel)的出现。OTel 是一个开源项目,提供标准化的方法来收集应用和基础设施的日志、指标和跟踪。它提供一套通用工具、API 和 SDK 用于应用和基础设施的监测。
为什么这么重要?OTel 打破了厂商锁定和对专有代理的依赖,促进了更多的跟踪作为可观测信号的使用。此外,由于 API 非厂商专有,开发者被鼓励在日志和跨度中添加应用特定属性。OTel 使得产生的数据对 SRE 及基于 ML 和 AI 的工具更有价值 —— 比如,可以按客户 ID 分析所有遥测数据。跟踪 API 的标准化也鼓励第三方为其服务添加监测,实现对反向代理和入口控制器等基础设施的可视化。最后,统一的格式和工具让运维人员轻松处理、路由和复制遥测数据到任何兼容 OTel 的可观测性解决方案。
给系统添加 OTel 监测比以往更简单:使用 OTel Kubernetes Operator,可以在运行时自动注入监测代码到 pods,无需更改你的 devops 流程。
机器学习(ML)和人工智能(AI):用智能应对复杂性
随着基础设施和应用越来越多地采用 ML 和 AI,可观测性解决方案也必须使用 ML 和 AI 才能成功。现代可观测性解决方案的 “成功” 是什么?就是防止问题的平均修复时间(mean time to resolution - MTTR)随着基础设施复杂度同步增长。理想情况下,MTTR 无论基础设施规模如何,都能保持相对稳定。
在可观测性中使用 ML 和 AI 解决了几个关键挑战:
-
保持高信噪比:随着遥测数据规模的增长,ML 在区分有意义的告警与噪声和误报中起关键作用。
-
知识普及化:AI 助手使所有 SRE 在工具访问(使用自然语言)和上下文相关的领域特定知识(如工单、问题和运行手册)方面处于同一水平,从而统一且高效地完成工作。
-
根因分析:AI 通过解读错误信息、多角度关联信号、并参考相关领域知识,快速加速根因分析,提供可能的根因建议。
总结
现代分布式应用和云基础设施日益复杂。解决方案不是消除复杂性,而是自信地监控它。
这需要四项基础能力:成本效益高的存储、通过 OpenTelemetry 标准化数据采集、通过统一元数据实现信号关联,以及由 ML 和 AI 驱动的工具来普及知识并使告警可操作。结合这些能力,即使基础设施持续无限扩展,也能保持问题的平均修复时间(MTTR)稳定。
随着 OpenTelemetry 和 AI 的出现,厂商不再通过摄取技术、基础分析和静态仪表盘来区分自己;这些正在成为商品。未来的差异化将来自存储(速度和成本)和基于 AI 的工作流自动化(告警和动态仪表盘)的创新。
这不仅仅是监控,更是让我们的系统及其管理人员以过去难以想象的规模高效运行。
想了解更多?观看《现代可观测性的未来》网络研讨会,了解 Elastic 对可观测性未来发展的愿景。
本帖中描述的任何功能的发布和时间由 Elastic 完全决定。当前不可用的功能可能不会按时或根本不会发布。
本文可能使用或引用了第三方生成式 AI 工具,这些工具由各自所有者拥有和运营。Elastic 对这些第三方工具没有控制权,也不对其内容、操作或使用承担责任,亦不对因使用这些工具而可能产生的任何损失负责。请在使用涉及个人、敏感或机密信息的 AI 工具时谨慎。你提交的任何数据可能会被用于 AI 训练或其他用途。无法保证你提供的信息会被安全或保密保存。使用前应熟悉任何生成式 AI 工具的隐私政策和使用条款。
Elastic、Elasticsearch 及相关标识是 Elasticsearch N.V. 在美国及其他国家的商标、标识或注册商标。所有其他公司和产品名称均为其各自所有者的商标、标识或注册商标。