zabbix “More than 100 items having missing data for more than 10 minutes”故障原因及最终解决方案

随之我们公司的服务器不断增多,而且服务器不在一个机房。为了解决监控问题,经过多方考量,最终选择了zabbix proxy来实现跨机房监控。关于具体是怎么实施的,后面有机会,写一下。今天,这里主要是说一下自从使用了zabbix proxy之后,我那潮湿的心。
按照网上一些人的说法,可以分为2类:

第一种:机器性能不行了,多半是累的:
如果你的server在出现,某某某参数超过75%之类的问题。那么恭喜你,你需要加配置或者优化了。而解决办法有很多,网上一搜一大堆。这里就不说了。
第二种:有一种说法是zabbix2.2.x的bug。
在第一种方案症状不适合的情况下,我果断选择了第二种。bug是一种信仰,但是这个问题貌似在2014年就,官方解决掉了。而且,后续的新版本,都解决了。如果是你的版本,刚好是,那么有bug的版本,那么抓紧升级吧。

好在,我在官网看到了一个不同的声音。官方解释
zabbix官网解释
要感谢大神们的知识分享啊。所以,这里也整理下发出来。希望帮助朋友们。
监控报警的这个参数,是表示zabbix的队列中,有100多个值在10分钟内未获取到。首先,看看是不是有类似问题。我看了没有断图,初步判断值已经是获取到了。但是当我到administration --> queue看到问题了。
很明显,这里面确确实实,是有很多的值在10分钟以上才获取到。
zabbix的队列图
点击又上脚details的图,可以查看具体是那些监控项没有获取到值。
zabbix的view图
考虑到我proxy的数据推送时间,想到可能存在这个问题。但是如果是推送时间太频繁,也会影响性能。最终还是通过修改监控triggers的阈值来避免了这个洪水般的报警:
修改zabbix的阈值

哈哈,当然前提是这个值要在你的可接受范围之内啊!!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: