更新时间:2022-09-27 GMT+08:00

ZooKeeper健康检查指标项说明

ZooKeeper服务处理请求平均延时

指标项名称:ZooKeeper服务处理请求平均延时

指标项含义:检查ZooKeeper服务处理请求的平均延时,如果大于300毫秒,则认为不健康。

恢复指导: 如果该指标项异常,则需要检查集群的网络速度是否正常、内存或CPU使用率是否过高。

ZooKeeper连接数使用率

指标项名称:ZooKeeper连接数使用率

指标项含义:检查ZooKeeper内存使用率是否超过80%。如果超过阈值,则认为不健康。

恢复指导:如果该指标项异常,建议增加ZooKeeper服务可以使用的内存。可以通过ZooKeeper服务配置中的“GC_OPTS”配置项参数-Xmx来修改,修改完成需重启ZooKeeper服务。

服务健康状态

指标项名称:服务状态

指标项含义:检查ZooKeeper服务状态是否正常。如果状态不正常,则认为不健康。

恢复指导:如果该指标项异常,建议检查KrbServer、LdapServer两个服务的健康状态是否为故障并进行处理。然后登录ZooKeeper客户端,确认ZooKeeper是否无法写入数据,根据错误提示排查ZooKeeper写数据失败的原因。最后参告警ALM-13000进行处理。

检查告警

指标项名称:告警信息

指标项含义:检查服务是否存在未清除的告警。如果存在,则认为不健康。

恢复指导:如果该指标项异常,建议参见告警进行处理。