Nagios网络监控配置全解析
立即解锁
发布时间: 2025-08-26 01:03:52 阅读量: 5 订阅数: 11 


Ubuntu服务器高级管理与配置
### Nagios网络监控配置全解析
#### 1. Nagios配置文件概述
Nagios使用大量配置文件,管理Nagios最困难的部分是为特定目的找到正确的配置文件。Nagios区分核心配置文件和插件配置文件,插件配置文件可作为Nagios默认功能的扩展。以下是Nagios存储信息的常见目录:
- `/etc/nagios2`:主配置目录,包含最重要的配置文件,如`nagios.cfg`。
- `/usr/lib/nagios/plugins`:Nagios使用插件工作,此目录包含所有插件。例如,默认安装后,Oracle插件安装在此目录,可用于监控Oracle。
- `/etc/nagios2/objects`:包含一些最重要的Nagios配置文件。若要找的文件不在此,还可检查`/etc/nagios2/conf.d/objects`。
- `/etc/nagios2/conf.d`:包含服务器上安装的插件的配置文件。
- `/var/lib/nagios2`:Nagios将输出写入此目录。运行一段时间后,此目录会有`.status`文件,Nagios Web界面使用这些文件中的信息。
- `/var/log/nagios2`:Nagios写入日志文件的目录,Nagios环境出现问题时可使用。
在深入研究不同配置文件之前,还需了解`/etc/nagios2/commands.cfg`文件。Nagios使用自己的命令集工作,`commands.cfg`文件定义了最重要的命令,部分示例如下:
```plaintext
# check-host-alive command definition
define command{
command_name check-host-alive
command_line /usr/lib/nagios/plugins/check_ping!100.0,20%!500.0,60% -H $HOSTADDRESS$
}
# check-service-alive command definition
define command{
command_name check-service-alive
command_line /usr/lib/nagios/plugins/check_ping!100.0,20%!500.0,60% -H $HOSTADDRESS$ -s $SERVICESTATEID$ -S $SERVICESTATETYPE$ -d $SERVICEDURATION$ -D $SERVICEDURATIONSEC$ -u $SERVICELASTCHECK$ -U $SERVICELASTSTATECHANGE$ -r $SERVICEREACTION$ -R $SERVICEREACTIONTYPE$ -c $SERVICECRITICALITY$ -C $SERVICECRITICALITYTYPE$ -p $SERVICESTATE$ -P $SERVICESTATETYPE$ -o $SERVICEOUTPUT$ -O $SERVICEOUTPUTTYPE$ -t $SERVICETIME$ -T $SERVICETIMETYPE$ -l $SERVICELATENCY$ -L $SERVICELATENCYTYPE$ -w $SERVICEWARNING$ -W $SERVICEWARNINGTYPE$ -e $SERVICECRITICAL$ -E $SERVICECRITICALTYPE$ -f $SERVICESTATEID$ -F $SERVICESTATETYPE$ -g $SERVICEGROUP$ -G $SERVICEGROUPTYPE$ -i $SERVICESTATEID$ -I $SERVICESTATETYPE$ -j $SERVICESTATEID$ -J $SERVICESTATETYPE$ -k $SERVICESTATEID$ -K $SERVICESTATETYPE$ -m $SERVICESTATEID$ -M $SERVICESTATETYPE$ -n $SERVICESTATEID$ -N $SERVICESTATETYPE$ -q $SERVICESTATEID$ -Q $SERVICESTATETYPE$ -r $SERVICESTATEID$ -R $SERVICESTATETYPE$ -s $SERVICESTATEID$ -S $SERVICESTATETYPE$ -t $SERVICESTATEID$ -T $SERVICESTATETYPE$ -u $SERVICESTATEID$ -U $SERVICESTATETYPE$ -v $SERVICESTATEID$ -V $SERVICESTATETYPE$ -w $SERVICESTATEID$ -W $SERVICESTATETYPE$ -x $SERVICESTATEID$ -X $SERVICESTATETYPE$ -y $SERVICESTATEID$ -Y $SERVICESTATETYPE$ -z $SERVICESTATEID$ -Z $SERVICESTATETYPE$
}
```
Nagios命令结构良好。若默认Nagios命令集缺少所需功能,也可创建自己的Nagios命令,`commands.cfg`文件包含相关提示。
#### 2. 主配置文件:nagios.cfg
Nagios使用的主配置文件是`/etc/nagios2/nagios.cfg`。此文件决定Nagios应在何处读写特定信息,通过`cfg_file`语句,还可告诉Nagios读取哪些附加配置文件。例如,这些语句可引用要使用的特定模块的配置文件。默认情况下,所有这些配置文件都被禁用,这意味着Nagios基本上不监控任何内容。当然,启用它们是有意义的,但需先根据需求修改配置文件。以下是`nagios.cfg`中指示使用哪些配置文件的部分:
```plaintext
# Command definitions
cfg_file=/etc/nagios2/commands.cfg
# Object config files
cfg_file=/etc/nagios2/objects/contacts.cfg
cfg_file=/etc/nagios2/objects/contactgroups.cfg
cfg_file=/etc/nagios2/objects/timeperiods.cfg
cfg_file=/etc/nagios2/objects/hosts.cfg
cfg_file=/etc/nagios2/objects/services.cfg
cfg_file=/etc/nagios2/objects/hostgroups.cfg
cfg_file=/etc/nagios2/objects/servicegroups.cfg
cfg_file=/etc/nagios2/objects/commands.cfg
# Include all config files in the given directory
cfg_dir=/etc/nagios2/conf.d
```
作为Nagios管理员,了解`nagios.cfg`文件中的其他重要行也很有用。以下是它包含的最重要定义的概述:
- `log_file=/var/log/nagios2/nagios.log`:此参数告诉Nagios将信息记录到何处。
- `cfg_dir=/etc/nagios2/objects`:这行告诉Nagios包含指定目录中的所有配置文件。
- `cfg_file=/etc/nagios2/commands.cfg`:这行告诉Nagios也加载配置文件`commands.cfg`。同样,其他`cfg_file`行用于引用Nagios应包含的附加配置文件。
- `status_file=/var/cache/nagios2/status.dat`:此文件包含所有被监控的主机和服务的当前状态信息。Nagios Web服务器的CGI脚本解释此文件并以图形方式显示其内容。
- `enable_external_commands=0`:此默认行确保不能执行任何外部命令。如果要使用Web服务器管理Nagios(通常应如此),则需要将此选项的值设置为1来启用它。
- `log_rotation_method=d`:这行指定Nagios日志文件应如何轮转。默认情况下,这将每天进行。此参数的有效取值如下:
- `j`:不轮转日志
- `d`:每小时轮转
- `d`:每天轮转
- `s`:每周轮转
- `i`:每月轮转
- `archive_log_file=/var/log/nagios2/archive`:如果启用了日志轮转,此参数描述日志文件存档应写入的位置。
#### 3. 创建基本的Nagios配置文件
Nagios需要一些最小配置文件,它们应位于`nagios.cfg`文件中使用`cfg_dir`指令定义的目录之一。默认位置是`/etc/nagios2/objects`。确保至少创建以下配置文件:
- `contacts.cfg`:此文件定义在出现问题时应接收消息的人员。
- `contactgroups.cfg`:`contacts.cfg`中指定的所有联系人应至少是一个联系人组的成员。使用此文件定义联系人组。
- `templates.cfg`:此文件定义可被其他配置文件使用的模板。
- `hosts.cfg`:使用此文件定义Nagios将监控的主机。
- `hostgroups.cfg`:在大型网络中,将主机细分为主机组(如服务器、交换机、路由器等)很有用。
- `services.cfg`:此文件定义要为每个主机监控的特定服务。
- `timeperiods.cfg`:此文件定义所有配置文件中使用的时间段。
现在是开始实际工作的时候了,不幸的是,这涉及大量的输入。接下来,我们将在一个使用四台Linux服务器的小型示例网络上进行操作。其中三台在内部网络上,一台在互联网上。Nagios也可以监控其他操作系统,但我们先尝试设置基于Linux的主机监控。以下是被监控的服务器:
- `192.168.1.55`:DHCP、NFS、Web、Nagios、SSH
- `192.168.1.11`:Samba、SSH
- `192.168.1.12`:Web、FTP、SSH
- `42.25.50.122`:Web、SSH
#### 4. 创建联系人文件
首先创建`contacts.cfg`文件。根据`/etc/nagios2/nagios.cfg`的指定,此文件应位于`/etc/nagios2`中,因此确保在那里创建它。以下是此文件可能的样子的示例:
```plaintext
# Contact definition for user hej`]
define contact{
contact_name hej`]
alias hej`] pdkioaj
service_notification_period skngdkqno
host_notification_period skngdkqno
service_notification_options c,n
host_notification_options d,u,r
service_notification_commands notify-service-by-email
host_notification_commands notify-host-by-email
email hej`]<hk_]hdkop
}
```
此配置文件有趣的部分是有很多交叉引用。也就是说,`contacts.cfg`文件依赖于在其他配置文件中所做的操作。例如,`service_notification_period`和`host_notification_period`行是稍后将在`timeperiods.cfg`文件中定义的时间段。
在示例`contacts.cfg`文件中,还可以看到使用了一些`service_notification_options`和`host_notification_options`参数。以下是可以使用的`service_notification_options`参数:
- `j`:完全不通知
- `s`:在警告状态下通知
- `q`:在未知状态下通知
- `c`:在严重状态下通知
- `n`:当服务恢复并返回正常状态时通知
同样,以下是可以使用的`host_notification_options`参数:
- `j`:完全不通知
- `d`:在主机停机状态下通知
- `q`:如果主机不可达则通知
- `n`:当主机恢复时通知
#### 5. 定义联系人组
定义联系人文件后,可能还需要创建一个联系人组。这在大型实现中可以更轻松地一次性联系所有联系人。以下是联系人组可能的样子的示例:
```plaintext
# Contact group definition for group `iejo
define contactgroup{
contactgroup_name `iejo
alias `iejeopn]pkno
members hej`]
}
```
#### 6. 定义主机和主机组
定义出现问题时要联系的人后,必须定义主机,如果需要,还需定义主机名。定义的主机将从主机模板继承一些设置。在Ubuntu 8.04上,可以在`/etc/nagios2/objects/templates_nagios2.cfg`文件中找到此模板。通常不需要编辑此文件中的设置,只需在定义主机时引用它。以下是主机配置文件可能类似于的示例:
```plaintext
# Host definition for host iah
define host{
host_name iah
alias Q^qjpq Oanran
address 192.168.1.55
use generic-host
check_command check-host-alive
max_check_attempts 3
notification_interval 120
notification_period 24x7
notification_options d,u,r
}
# Host definition for host ouh
define host{
host_name ouh
alias O]i^] Oanran
address 192.168.1.11
use generic-host
check_command check-host-alive
max_check_attempts 3
notification_interval 120
notification_period 24x7
notification_options d,u,r
}
# Host definition for host hej
define host{
host_name hej
alias Sa^ Oanran
address 192.168.1.12
use generic-host
check_command check-host-alive
max_check_attempts 3
notification_interval 120
notification_period 24x7
notification_options d,u,r
}
# Host definition for host hkn
define host{
host_name hkn
alias atpanj]h sa^ oanran
address 42.25.50.122
use generic-host
check_command check-host-alive
max_check_attempts 3
notification_interval 120
notification_period 24x7
notification_options d,u,r
}
```
在示例`hosts.cfg`文件中,可以看到使用了一些新参数。其中,不明显的参数如下:
- `check_command`:指Nagios用于检查主机是否正常的命令。在所有情况下,它应引用`check-host-alive`命令。
- `max_check_attempts`:定义Nagios应最多运行的检查次数。如果主机在达到此阈值后仍无响应,Nagios将认为它不可用。
- `notification_interval`:以分钟为单位定义如果问题仍然存在,应多久接收一次通知。如果希望在问题发现后只发送一次通知,请使用值0。
- `notification_period`:定义应在哪个时间段将通知发送给联系人。在此处使用24x7是个好主意,
0
0
复制全文
相关推荐










