一、agent连接正常,server端报agent.ping问题
由来
zabbix-server迁移到server2上,zabbix架构为zabbix-agent –> zabbix_proxy –> zabbix_server;
zabbix-server迁移进行时,zabbix_proxy没做停止,zabbix-server迁移完成后,zabbix_proxy指定的还是server1。这时,zabbix-server2收不到所有zabbix_proxy的数据,因此产生大量报警,当zabbix_proxy的Server字段改为zabbix-server2后,数据同步了,但是极有可能造成zabbix-server下的部分agent节点的触发器agent.ping还没有得到响应,而迁移后的数据也能在新的server上展示。
解决办法
把有问题的agent节点关闭,等待server端重新出发一次agent.ping(相当于更新下之前的状态),当server收到新的报警后,再把问题agent启动。这样就能覆盖掉问题agent.ping。
二、报警风暴
由来
当大量zabbix_agent单位时间内连接超时,故障修复后,会产生大量的报警信息(比如:邮件、短信)。这些人为已经预知的情况下,其实不想在收到通知!
解决办法
比如zabbix_server调用的邮件通知,把邮件脚本改成:
1 | echo `date` >> /tmp/sms.txt |
这样的操作很明显能弯路思想改善接受大量报警信息。