G行监控工具之Nagios篇
发布时间:2022-05-25 13:29 所属栏目:53 来源:互联网
导读:无论何时何地,我们都可以了解到服务器的性能,这归功于作为运维之眼的监控系统。G行监控系统使用的监控工具有多种,Nagios作为老牌监控工具,凭借其灵活的配置功能和强大的管理中心在G行发挥着重要作用。本文从功能、系统监控原理和在G行的应用等方面介绍Na
无论何时何地,我们都可以了解到服务器的性能,这归功于作为运维之眼的监控系统。G行监控系统使用的监控工具有多种,Nagios作为老牌监控工具,凭借其灵活的配置功能和强大的管理中心在G行发挥着重要作用。本文从功能、系统监控原理和在G行的应用等方面介绍Nagios监控工具。 一、Nagios功能 1.主机或服务状态监控 Nagios可以监控的服务器操作系统主要包含Linux、Unix和Windows等,可监控的网络设备有路由器、交换机等,支持对http、tcp、pop3、smtp等各种应用协议进行外部可用性探测。 2.监控告警通知 Nagios对发现的问题会及时产生告警信息,并通过事先定义好的方式,如:邮件、短信、微信等方式通知相关人员。同时,Nagios还支持利用客户化程序和调用API来进行告警通知,以便用户更好的发现问题,并进行自动化处理。 3.监控信息可视化 Nagios结合web服务器,可以将其监控的所有信息以web页面的形式展现出来,还可以进一步结合外部软件实现监控数据可视化分析,以图表的形式展示在web页面中,下图为Nagios web页面展示。 4.监控数据存储 Nagios监控采集到的数据会存储下来,可以通过NDOUtis组件存储到数据库中实现历史监控信息的查询。 二、Nagios系统监控原理 Nagios是一种C/S方式的监控工具,系统中的角色可以分为: (1)Nagios服务器:安装核心模块,负责监控的处理、任务调度、下发指令和web展示。 (2)被监控主机:安装代理模块,执行具体的监控指令、返回监控的结果。 Nagios服务器向代理模块发送请求,代理模块调用各个插件获取具体资源的状态信息,然后返回给Nagios服务器,最后对收集到的信息进行分析,并通过web应用进行展示。 Nagios系统主要包含Nagios daemon、Nagios plugin、nrpe三个组件,它还包含NSCA、NSClinet++、NDOUtils组件,组成逻辑图如下所示: Nagios daemon:Nagios系统的核心组件,它负责组织与管理各组件,将它们协调起来共同完成监控任务,并完成监控信息的组织与展示。 Nagios plugin:Nagios核心组件自带以及用户自开发的一些插件,它们是实现各项监控的具体小程序,由它们采集到相应的数据以后,回送给Nagios服务器。 NRPE:Nagios系统要想取得被监控主机的存活状态以及http、ftp、ssh等公开服务可用,可以通过程序探测得出。如果要想取得被监控主机上如磁盘容量、CPU负载等本地信息时,就需要代理程序,Linux系统是nrpe,Windows是NSClient++,通过代理程序来获取监控数据,再发送到Nagios服务器。 三、插件介绍及应用 Nagios核心模块只支持少量的监控功能,大部分监控功能都是通过各种插件来完成的。监控插件获取监控数据的方式可以分为两种:主动监控和被动监控。二者的区别在于,主动检测是由Nagios执行查询命令,而被动监控是由外部程序(代理)将检测结果推送给Nagios服务器。 主动监控:Nagios监控服务器定期主动到被监控端获取数据。主动监控又分为需要在被监控端安装agent和不需要安装agent两种。 需要安装agent:windows平台下是NSClient++,linux下是nrpe。 不需要安装agent:开启被监控端的snmp,或者通过其他网络协议进行监控。 被动监控:被监控端是将自身监控数据发往Nagios的方式,又可以分为以下两种: 被监控端通过安装nsca,定期检查本机监控项目,并将告警数据发往Nagios服务器。 被监控端配置snmp trap,将相应的trap信息发往Nagios服务器。 目前Nagios在G行主要承担外部探测功能,从Service端主动发动监控检查。 Nagios大部分的监控功能都是通过插件来实现的,以下简单介绍一些我们现在使用的Nagios插件。 (1)Nagios plugins,是个软件包,里面包含众多的插件,我们现在使用的包括:check_nt 用于监控Windows系统的负载、内存使用、磁盘使用、系统运行时间、某进程运行情况。在Nagios服务器上使用此插件,需要在被监控的Windows系统上安装agent——NSClient++ 。 监控系统负载 check_nt -H $HOSTNAME$ -p 12489-v CPULOAD –l 5,80,90 监控系统内存使用 check_nt -H $HOSTNAME$ -p 12489-v MEMUSE –w 80 –c 90 监控系统磁盘使用 check_nt -H $HOSTNAME$ -p 12489-v USEDDISKSPACE -l d -c 80 监控系统运行时间 check_nt -H $HOSTNAME$ -p 12489-v UPTIME 监控系统进程 check_nt -H $HOSTNAME$ -p 12489-v PROCSTATE -d SHOWALL -l explorer.exe -H :指定被监控IP -p:是NSClient++默认开启端口 -v:要监控的项目 -w: wanring阈值 -c:critical阈值 -l:附加参数 (2)check_nrpe,nrpe软件包包含了check_nrpe命令,使用这个命令来获取被监控数据,它的工作方式是:通过被监控端上的nrpe配置文件来定义监控命令(这些命令可以是Nagios plugins中的,也可以是自己开发的监控脚本),然后从Nagios服务器上通过check_nrpe调用这些已定义的监控命令,返回监控数据。 监控系统负载 在被监控的linux端,安装nrpe和Nagios plugin,通过更改nrpe.conf文件,我们定义命令: command[check_load]=/usr/local/Nagios/libexec/check_load-w 15,10,5 -c 30,25,20 注:check_load包含在Nagiosplugins中,只能运行在linux上。-w是warning阈值,-c是critical阈值,三个值分别对应这系统1分钟、5分钟、15分钟的负载阈值。 (3)check_ping,用于检查主机存活,可以简单的理解为ping。 监控系统网络情况 check_ping –H $HOSTNAME$ -w100.0,20% -c 500.0,60% -w:warning阈值,100代表延迟时间,20%代表丢包率 -c:critical阈值,500代表延迟时间,60%代表丢包率。 当ping的情况无论是达到延迟时间的阈值还是丢包率的阈值,都会报警。 (4)check_tcp,检查tcp连接相应时间。 check_tcp –H $HOSTNAME$ -p 7001-w 0.05 -c 0.1 -p:指定tcp服务端口 -w:相应时间warning阈值 -c:相应时间critical阈值 (5)SNMP– Linux:通过snmp的方式监控,不需要被监控端安装agent,只需要被监控操作系统或者被监控应用系统开启并配置snmp服务即可。Nagios服务器通过snmpwalk命令连接并获取远端的系统信息。 监控linux磁盘 snmp_linux_disk_check.sh -H HOST-C community -w warning -c critical [-d disk] -H指定被监控主机IP。-C团体字。-w磁盘使用率告警阈值-c磁盘使用率criticla告警阈值-d是可选项,指定磁盘挂载点,如省略则检测主机上所有挂载点。 监控linux CPU snmp_linux_cpu_check.sh -H HOST-C community -w warning -c critical -H,-C参数意义同上-w是cpu使用率告警阈值-c是cpu使用率critical告警阈值 监控linux内存 snmp_linux_mem_check_v1.sh -HHOST -C community -w warning -c critical -H,-C意义同上-w是内存使用率告警阈值 -c是内存使用率critical告警阈值 四、在G行的应用 Nagios在G行主要承担外部探测功能,从Service端主动发动监控检查。目前监控对象包括操作系统、数据库、应用(端口、页面、日志等)、专用设备等。 五、总结与展望 Nagios是一款轻量级的开源监控软件,它可以有效的监控Linux、Windows类等的主机和网络设备,可以自定义监控脚本,同时具有部署简单、告警方式灵活、可监控多种协议等优点。目前行业中常用监控软件还有Zabbix、Prometheus等,它们分别有支持分布式监控和容器监控等优点,这两种监控工具也在G行有应用,共同支撑着G行的监控系统,并在监控自服务和监控标准等方面继续优化。 (编辑:ASP站长网) |
相关内容
网友评论
推荐文章
热点阅读