zabbix问题汇总

一、agent连接正常,server端报agent.ping问题

由来

zabbix-server迁移到server2上,zabbix架构为zabbix-agent –> zabbix_proxy –> zabbix_server;

zabbix-server迁移进行时,zabbix_proxy没做停止,zabbix-server迁移完成后,zabbix_proxy指定的还是server1。这时,zabbix-server2收不到所有zabbix_proxy的数据,因此产生大量报警,当zabbix_proxy的Server字段改为zabbix-server2后,数据同步了,但是极有可能造成zabbix-server下的部分agent节点的触发器agent.ping还没有得到响应,而迁移后的数据也能在新的server上展示。

解决办法

把有问题的agent节点关闭,等待server端重新出发一次agent.ping(相当于更新下之前的状态),当server收到新的报警后,再把问题agent启动。这样就能覆盖掉问题agent.ping。

二、报警风暴

由来

当大量zabbix_agent单位时间内连接超时,故障修复后,会产生大量的报警信息(比如:邮件、短信)。这些人为已经预知的情况下,其实不想在收到通知!

解决办法

比如zabbix_server调用的邮件通知,把邮件脚本改成:

1
echo `date` >> /tmp/sms.txt

这样的操作很明显能弯路思想改善接受大量报警信息。