zabbix问题汇总

一、agent连接正常，server端报agent.ping问题

由来

zabbix-server迁移到server2上，zabbix架构为zabbix-agent –> zabbix_proxy –> zabbix_server；

zabbix-server迁移进行时，zabbix_proxy没做停止，zabbix-server迁移完成后，zabbix_proxy指定的还是server1。这时，zabbix-server2收不到所有zabbix_proxy的数据，因此产生大量报警，当zabbix_proxy的Server字段改为zabbix-server2后，数据同步了，但是极有可能造成zabbix-server下的部分agent节点的触发器agent.ping还没有得到响应，而迁移后的数据也能在新的server上展示。

解决办法

把有问题的agent节点关闭，等待server端重新出发一次agent.ping（相当于更新下之前的状态）,当server收到新的报警后，再把问题agent启动。这样就能覆盖掉问题agent.ping。

二、报警风暴

由来

当大量zabbix_agent单位时间内连接超时，故障修复后，会产生大量的报警信息（比如：邮件、短信）。这些人为已经预知的情况下，其实不想在收到通知！

解决办法

比如zabbix_server调用的邮件通知，把邮件脚本改成：

1	echo `date` >> /tmp/sms.txt

这样的操作很明显能弯路思想改善接受大量报警信息。