一、环境及说明
本次实验基于CentOS6.x_x64 zabbix2.4.5(其实可以是其他版本的zabbix服务端),i测试的客户端机器:10.168.118.61(安装zabbix-agent的机器)上,所使用到的工具如下:
iostat来源于syssat软件包
#rpm -qa |grep sysstat
如果没有安装 请执行
#yum install sysstat -y
iostat 工具常用说明:
常用 $iostat -dxkt 1 输出选项说明:
rrqm/s 每秒进行merge的读操作数目。即delta(rmerge)/swrqm/s 每秒进行merge的写操作数目。即delta(wmerge)/sr/s 每秒完成的读I/O设备次数。即delta(rio)/sw/s 每秒完成的写I/O设备次数。即delta(wio)/srsec/s 每秒读扇区数。即delta(rsect)/swsec/s 每秒写扇区数。即delta(wsect)/srkB/s 每秒读K字节数。是rsect/s的一半,因为每扇区大小为512字节。(需要计算)wkB/s 每秒写K字节数。是wsect/s的一半。(需要计算)avgrq-sz 平均每次设备I/O操作的数据大小(扇区)。delta(rsect+wsect)/delta(rio+wio)avgqu-sz 平均I/O队列长度。即delta(aveq)/s/1000(因为aveq的单位为毫秒)。await 平均每次设备I/O操作的等待时间(毫秒)。即delta(ruse+wuse)/delta(rio+wio)svctm 平均每次设备I/O操作的服务时间(毫秒)。即delta(use)/delta(rio+wio)%util一秒中有百分之多少的时间用于I/O操作,或者说一秒中有多少时间I/O队列是非空的。即delta(use)/s/1000(因为use的单位为毫秒)二、利用iostat -dxkt 1 手动监控disk io
1、编写发现磁盘的脚本 (shell):
$cd /etc/zabbix/bin$cat disk_discovery.sh#!/bin/bashdiskarray=(`cat /proc/diskstats |grep -E "\bsd[a-z]\b|\bxvd[a-z]\b|\bvd[a-z]\b"|awk '{print$3}'|sort|uniq 2>/dev/null`)length=${#diskarray[@]}printf "{\n"printf '\t'"\"data\":["for ((i=0;i<$length;i++))doprintf '\n\t\t{'printf "\"{#DISK_NAME}\":\"${diskarray[$i]}\"}"if [ $i -lt $[$length-1] ];thenprintf ','fidoneprintf "\n\t]\n"printf "}\n"$ sh disk_discovery.sh{"data":[{"{#DISK_NAME}":"xvda"},{"{#DISK_NAME}":"xvdb"}]}
2、编写获取磁盘I/O信息的脚本
nohup /usr/bin/iostat -dxkt 1 > /tmp/iostat_output 2>/dev/null &运行并放入/etc/rc.local 临时解决方案,看后面添加 iostat sysv服务开机启动并定期清除iostat_output文件大小3、编写disk_status.sh脚本用于实时检测磁盘io$cd /etc/zabbix/bin$vim disk_status.sh#/bin/shdevice=$1item=$2case $item inrrqm)/usr/bin/tail -n20 /tmp/iostat_output |grep "\b$device\b"|tail -1|awk '{print $2}';;wrqm)/usr/bin/tail -n20 /tmp/iostat_output |grep "\b$device\b"|tail -1|awk '{print $3}';;rps)/usr/bin/tail -n20 /tmp/iostat_output |grep "\b$device\b"|tail -1|awk '{print $4}';;wps)/usr/bin/tail -n20 /tmp/iostat_output |grep "\b$device\b" |tail -1|awk '{print$5}';;rKBps)/usr/bin/tail -n20 /tmp/iostat_output |grep "\b$device\b" |tail -1|awk '{print$6}';;wKBps)/usr/bin/tail -n20 /tmp/iostat_output |grep "\b$device\b" |tail -1|awk '{print$7}';;avgrq-sz)/usr/bin/tail -n20 /tmp/iostat_output |grep "\b$device\b" |tail -1|awk '{print$8}';;avgqu-sz)/usr/bin/tail -n20 /tmp/iostat_output |grep "\b$device\b" |tail -1|awk '{print$9}';;await)/usr/bin/tail -n20 /tmp/iostat_output |grep "\b$device\b" |tail -1|awk '{print$10}';;svctm)/usr/bin/tail -n20 /tmp/iostat_output |grep "\b$device\b" |tail -1|awk '{print$11}';;util)/usr/bin/tail -n20 /tmp/iostat_output |grep "\b$device\b" |tail -1|awk '{print$12}';;esac
4、修改zabbix agent配置文件
cd /etc/zabbix/zabbix_agentd.d/vim disk_status.confUserParameter=disk.discovery,/bin/bash /etc/zabbix/bin/disk_discovery.shUserParameter=disk.status[*],/bin/bash /ect/zabbix/bin/disk_status.sh $1 $2重启zabbix agent
#service zabbix-agent restart
5、测试(zabbix server上):
$sudo zabbix_get -s 10.168.118.61 -k "disk.discovery"{ "data":[{ "{#DISK_NAME}":"xvda"},{ "{#DISK_NAME}":"xvdb"}]}如果能获得10.168.118.61上磁盘信息说明disk_discovery.sh脚本正确$sudo zabbix_get -s 10.168.118.61 -k disk.status[xvda,wps]10.00如上能获取xvda盘的wps值说明disk_status.sh脚本正常三、到zabbix server前端web上添加磁盘IO监控模板
configuration(中文叫组态) --Templates(模板)--选择一个你常用的模板(或先创建一个模块) Applications(应用集) --Create application(创建应用)输入名为 DISK_IO Discovery -- Create discovery ruleName:Disk_DiscoveryKey:disk.discoveryUpdate interval(in sec):3600Filters:{#DISK_NAME}Name Key IntervalItem prototypes--Create item prototypes -- Writerequests merqed per second on {#DISK_NAME}disk.status[{#DISK_NAME},wrqm] 60 90 120 Zabbixagent DISK_IO EnabledWriterequests issued per second to {#DISK_NAME} disk.status[{#DISK_NAME},wps] 60 90 120Zabbix agent DISK_IO EnabledRequestsaverage size(sectors) issued to {#DISK_NAME} disk.status[{#DISK_NAME},avgrq-sz] 60 90120 Zabbix agent DISK_IO EnabledRequestsaverage queue length issued to {#DISK_NAME} disk.status[{#DISK_NAME},avgqu-sz] 60 90120 Zabbix agent DISK_IO EnabledReadrequests merqed per second on{#DISK_NAME} disk.status[{#DISK_NAME},rrqm] 60 90 120Zabbix agent DISK_IO EnabledReadrequests issued per second to {#DISK_NAME} disk.status[{#DISK_NAME},rps] 60 90 120Zabbix agent DISK_IO EnabledI/Orequests average time(Miliseconds) issued to {#DISK_NAME} disk.status[{#DISK_NAME},await]60 90 120 Zabbix agent DISK_IO EnabledByteswritten per second on {#DISK_NAME} disk.status[{#DISK_NAME},wKBps] 60 90 120 Zabbixagent DISK_IO EnabledBytesread per second on {#DISK_NAME} disk.status[{#DISK_NAME},rKBps] 60 90 120 Zabbixagent DISK_IO EnabledBandwidth utilization for {#DISK_NAME} disk.status[{#DISK_NAME},util] 60 90 120 Zabbixagent DISK_IO Enabled在添加item的时候注意,由于使用的是iostat -k获取每秒的读写大小,所以iostat显示的是以KB为单位,在zabbix上以B为基本单位,需要用到Usecustom multiplier 这个选项将zabbix agent返回的KB值乘以1024变成B,然后zabbixagent再以B为单位显示成B或KB或MB便于查看。以上的监控不能算完美,缺陷在于iostat_output文件大小会不断增长一般一个月差不多到1G,所以为了让它开机能自动启动并能重置iostat_output文件大小大小,做成系统服务并添加到计划任务中,指定时间重启,这样就会自动重置iostat_output文件大小四、添加iostate系统服务并添加到计划任务
cat iostat#!/bin/sh# chkconfig: - 99 11# description: iostat# processname: iostatus# Author: san 2015-12-29. /etc/init.d/functionsiostat=${IOSTAT-/usr/bin/iostat}prog=iostatiostat_tmp=/tmp/iostat_outputpidfile=${PIDFILE-/var/run/iostat.pid}lockfile=${LOCKFILE-/var/lock/subsys/iostat}RETVAL=0if [ ! -f "$iostat" ]thenecho "iostat startup: command cannot found.cannot start."exit 2fistart(){if [ ! -f ${pidfile} ]; thenecho -n $"Starting $prog:"$iostat -dxkt 1 > $iostat_tmp 2>/dev/null &[ "$?" -eq 0 ] && success $"$base startup" || failure $"$base startup"iostat_pid=$(ps aux |grep iostat|grep dxkt |grep -v grep|awk '{print $2}')echo $iostat_pid >$pidfileRETVAL=$?echo[ $RETVAL = 0 ] && touch ${lockfile}return $RETVALelsestatus -p ${pidfile}exit 0fi}stop(){echo -n $"Stoping $prog: "killproc -p ${pidfile} iostatRETVAL=$?echo[ $RETVAL = 0 ] && rm -f ${lockfile} ${pidfile}rm -rf $iostat_tmp}case "$1" instart)start;;stop)stop;;status)status -p ${pidfile} $iostatRETVAL=$?;;restart)$0 stop$0 start;;*)echo "Usage: iostat { start | stop | restart | status } "exit 1esac
添加到系统服务和开机自启
#chkconfig --add iostat
#chkconfig iostat on
#service iostat startStarting iostat: [确定]#service iostat statusiostat (pid 2810) 正在运行...cat /tmp/iostat_output-rw-r--r-- 1 root root 443M 1月 13 10:48 iostat_output###运行13天 iostat_output文件大小添加到计划任务中 每月1号1时1分重启iostat$crontab -l1 1 1 1 * service iostat restart到此完美自动监控系统io