[社群QA] Zabbix“专家坐诊”第90期问答汇总

[复制链接]
乐维 发表于 2020-12-24 18:24:51 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
Q:请问一下 我这条函数 引用icmpping  读取参数0的时间持续300秒就触发报警 是对的嘛?
A:mmin 改成max ,因为300秒内同时存在0和1 的时候,最小也是0
Q:max的意思是?
A:持续300秒内的最大值为0
Q:我之前设的max(#3),但是 会有一定的报警 持续0分钟 1分钟的样子 想把这方面的报警过滤掉 有什么好办法嘛?比如持续掉线5分钟 才报警
A:这个最好有相应的截图辅助分析。或者先试试
Q:你把采集频率改为1分钟,然后max(#5),这样就可以了吧
A:max(#5)的意思是判断最近5个值的最大值
Q:采集频率改为1分钟,不就是这5分钟内最大的值了吗?
A:是的
Q:具体是这样的 也有可能是有波动 会导致类似交换机ICMP 不通生成报警,恢复的很快
2.jpg
3.jpg
4.jpg
是这样子的,有没有好的建议?
A:如果最新数据的结果确实是0  0  0  0 1 的结果的话,告警是没错的,因为监控项采集频率是30秒,正常情况下,1分钟已经足够采集2次了。如果需要这么灵敏的告警方式,可以继续保持。如果不需要太灵敏,可以考虑把监控项时间间隔改成1m,这样就是持续3分钟不通才告警。如果不需要太快出现恢复通知,可以增加一条恢复表达式min(#3)=1 ,表示持续3分钟都能ping通才恢复。这个主要看需求
Q:灵敏度还是需要的 采集频率还是30秒 那我是不是可以按照上面朋友的 max(5m)=0  5分钟的最大值=0  触发报警,icmp触发器 不加恢复表达式 是不是检测到1   就恢复了?

Q:我把远程命令改成date_ip=$(date +%Y-%m-%d-%H%M) && echo "写入测试" > /data/zabbix/mtr/{HOST.CONN}-$date_ip.txt 。就能成功执行,看来还是执行mtr失败了
5.png
6.png
我给了zabbix  sudo权限,为啥执行不了呢?
A:可以考虑配置2个监控项,1个负责监控能否ping通,1个使用mtr命令测试路径,然后新增一个触发器,关联这2个监控项,当ping不通的时候发送告警通知并带上另一监控项的mtr结果,zabbix 不会自动使用sudo权限,只有配置了执行sudo命令的时候才会生效
Q:我用这条命令的时候执行失败了        date_ip=$(date +%Y-%m-%d-%H%M) && sudo mtr -nc30 -i 0.1 {HOST.CONN} > /data/zabbix/mtr/{HOST.CONN}-$date_ip.txt
date_ip=$(date +%Y-%m-%d-%H%M) && echo "写入测试" > /data/zabbix/mtr/{HOST.CONN}-$date_ip.txt   这条就能成功

A:mtr命令加上-r 参数可以只输出结果,比较适合保存到文件。需要注意 如果使用非root执行 mtr命令,会提示-i 参数不能小于1秒

Q:在server上装的agent可以get到,但是装在别的机器上的agent get不到,报监控项不支持错误,server上的agent做的监控项在web 界面上显示也是Unsupported item key.
A:别的机器上也需要修改agent配置文件,添加这2个自定义键值
Q:这是agent上做的呀,都做了,都显示不支持的
1.jpg

Q:您好,我想请教下,通过服务器的BMC,snmp可以监控服务器硬盘剩余可用容量吗?或者做完raid的虚拟磁盘容量也行
A:大部分的品牌及型号都支持,具体以相同型号的mib文件为准。
Q:我找到一个mib,是物理磁盘的,但是得到的值都是0 。戴尔服务器
7.png
A: 这个mib上还有其他OID 能获取到物理磁盘的剩余空间大小吗?如果没有,建议把截图给戴尔厂商看看,不排除是服务器软件版本低导致。

Q:有么有大佬知道怎么统计 centos 磁盘的啊    我是想采集/mnt/nas的容量是不是在增加    定期发送到微信上  来确定 程序是不是正常在运行
8.jpg
A: 可以尝试使用这个键值来获取 /mnt/nas 的空间


Q:我这边自己做了一个stp端口监控 也做了触发器 但是由于华三获取到的参数不正确 导致触发器函数很麻烦 华三是这样的 stp堵塞状态是2  而默认端口down和没插设备的端口 stp端口参数也是2
A:华三的网络设备吗? 如果端口down和没插设备的端口 会影响stp状态的判断,可以在配置端口自动发现规则的时候过滤 端口down和没插设备的端口 ,仅监控up状态的端口,这样应该就不会影响stp状态的监控了
Q:不不不 过滤没接的设备我知道的,让我想想怎么表达
A:我大概知道,是打算只通过触发器表示式实现吗?我感觉你写的也没问题
Q:效果是有的 但是这个报警其实跟刚刚第一个问题一样 会出现很多短时间报警  一会会就恢复了 因为我用的参数是last 而且需要用stp端口和交换机端口双重判断才行

A:我想定期检测主动模式下的agent是否运转正常,模板自带的agent.ping不适用于我这种server不能主动连接的情况,有没有键值可以让agent自己报告自己是否运转正常呢?
Q:可以使用nodata函数写出触发器表达式,用于监控持续一段时间没接收到数据就告警

Q:请问下,我能不能利用trigger来触发sql语法指令呢?例如CPU使用到达70%以上,执行sql语法查询目前状态?
A:这个sql语句的结果是需要跟告警通知一起发送吗?如果是CPU使用率的监控,当使用率超过阈值,触发告警时,zabbix自带的宏 能获取到CPU使用率的具体结果,似乎没必要通过sql语句实现
Q:主要是想当下在sql中查询,目前在做什么事导致CPU升高,现在都是事后才去查,但就已经查不到了
A:可以参考上面mtr的触发脚本的方式去实现,给告警绑定脚本,脚本里面写sql语句,当触发告警时调用脚本
9.png
10.png
Q:好的 我这研究一下 谢谢

Q:date_ip=$(date +%Y-%m-%d-%H%M) && mtr -nc30 {HOST.CONN} -r > /data/zabbix/mtr/{HOST.CONN}-$date_ip.txt   就很奇怪,明明有权限执行命令。mtr带上 -r 参数可以执行成功,但是内容不全
11.png
12.png
13.png
没结果,触发执行间隔是5分钟
14.png
15.png
A:试试用这命令: date_ip=$(date +%Y-%m-%d-%H%M) && nohup  mtr -nc30 {HOST.CONN} -r > /data/zabbix/mtr/{HOST.CONN}-$date_ip.txt &

讲座90.jpg





上一篇:zabbix5.0 mysql表分区
下一篇:zabbix排除主动采集页面无数据
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注0

粉丝0

帖子314

发布主题

乐维社区

微信公众号

版权所有 © 2016-2021 九一乐维丨粤ICP备17007026号