监控系统:Nagios 警报含义与 Ganglia 配置使用指南
1. Nagios 警报的真实含义
当从 Nagios 或任何监控系统发出通知(即警报)时,它真正意味着什么呢?很多系统管理员的第一反应是“这意味着主机或服务出现故障”,但事实并非如此。实际上,是监控程序或脚本发出了故障信号。当 Nagios 发送通知时,意味着插件脚本以非零退出代码退出(在 Nagios 中,退出代码为零表示“正常”)。
例如,如果插件是 _da_g[dppl
,你可能会认为这意味着远程 Web 服务器已关闭。但如果 _da_g[dppl
请求的 URL 上的静态文件被移动了呢?一个 404 HTTP 状态(表示“未找到文档”)会导致 _da_g[dppl
失败吗?你甚至知道这个问题的答案吗?如果不知道,你应该去弄清楚。又或者,如果监控主机有错误的路由条目,导致与 Web 服务器的通信超时,但通知仍能发送给你,而 Web 服务器本身可能是正常的,并且除了监控主机之外的所有系统都可以访问它。
所以,不要轻易得出通知意味着服务或主机已失败的结论。在采取任何补救措施之前,你需要确切了解每个服务定义所检查的内容,并通过自己的一些检查来验证服务是否真的出现故障。
2. Ganglia 简介
Ganglia 是一个分布式监控系统,它使用图形来展示所收集的数据。Nagios 可以告诉我们应用程序或主机是否未通过检查,而 Ganglia 则用于展示主机资源利用率和性能的长期趋势。你还可以将特定于站点的指标输入到 Ganglia 中,不过这里不会进行演示。
如果某