监控项说明

监控指标类别	监控项	说明
kafka指标	每秒流入消息个数（个/s）	所有的topic的消息速率（个/s），取一分钟的平均值
:::	每秒流入数据（B/s）	所有的topic的流入数据速率（B/s），取一分钟的平均值
:::	每秒流出数据（B/s）	所有的topic的流出数据速率（B/s），取一分钟的平均值
:::	消费者失败请求（次/s）	消费者失败的请求个数，取一分钟的平均值
:::	生产者失败请求（次/s）	生成者失败请求的个数，取一分钟的平均值
:::	Broker拒绝的消息（B/s）	Broker拒绝的消息量，取一分钟的平均值
:::	leader选举速率(ms)	Broker宕机时，集群应该在尽可能短的时间内完成leader选举
:::	controller存活数目(个)	集群同一时间有且最多只能有一个controller，与下述管理节点个数（个）指标相同
:::	生产者请求响应时间（ms）	生产者平均响应时间
:::	生产者QPS（次/s）	生产者QPS，取一分钟的平均值
:::	消费者请求响应时间（ms）	消费者平均响应时间
:::	消费者QPS（次/s）	消费者QPS，取一分钟的平均值
:::	Kafka存活节点个数(个)	集群节点存活数量统计，值应该与集群节点数相同
:::	Follower落后Leader最大消息量（个）	follower落后leader replica的最大的消息数量
:::	分布在该节点上的分区总数（个）	该节点上分区总数
:::	分布在该节点上的leader分区总数（个）	该节点上leader分区总数
:::	未复制的分区总数（个）	待做复制的分区的数量，正常值为0
:::	ISR收缩速率（个/s）	ISR的收缩(shrink)速率。<\br> 如果一个broker挂掉了，一些partition的ISR会收缩。<\br> 当那个broker重新起来时，一旦它的replica完全跟上，ISR会扩大(expand)。<\br> 除此之外，正常情况下，此值和下面的扩大速率都是0
:::	ISR扩大速率（个/s）	ISR的扩大(expansion)速率，参见ISR的收缩(shrink)速率
:::	管理节点个数（个）	当前的broker是否为controller。<\br> 在集群中只有一个broker的这个值为1，其他值为0，如果都为0，集群有问题。
:::	离线分区总数（个）	离线的partition个数
节点指标	CPU使用率（%）	节点的CPU使用率
:::	磁盘读/写吞吐（Kb/s）	磁盘读写吞吐量
:::	磁盘读/写次数（次/s）	磁盘读写次数
:::	网卡出/入带宽（Kb/s）	网卡出入带宽值
:::	网卡出/入包量（个/s）	网卡出入包量
:::	内存使用率（%）	节点的内存使用率
:::	数据盘使用率（%）	节点数据盘使用率
:::	系统盘使用率（%）	节点系统盘使用率
zookeeper指标	zk当前活跃连接数(个)	zk当前活跃连接个数
:::	zk最大请求延时(ms)	zk最大请求延时
:::	zk平均请求延时(ms)	zk平均请求延时
:::	zk最小请求延时(ms)	zk最小请求延时
:::	zk总发送响应数(万个)	zk总发送响应数
:::	zk总接收响应数(万个)	zk总接收响应数
:::	zk待处理连接数(个)	zk待处理连接数
::	watcher数量（个）	watch机制用于数据变更时zookeeper的主动通知。<\br> watch可以被附加到每一个节点上，那么如果一个应用有10W个节点，<\br>那zookeeper中就可能有10W个watch（甚至更多）
:::	znode数量（个）	znode是zookeeper的节点，类似文件系统的目录或者文件