监控项说明
监控指标类别 | 监控项 | 说明 |
---|---|---|
kafka指标 | 每秒流入消息个数(个/s) | 所有的topic的消息速率(个/s),取一分钟的平均值 |
::: | 每秒流入数据(B/s) | 所有的topic的流入数据速率(B/s),取一分钟的平均值 |
::: | 每秒流出数据(B/s) | 所有的topic的流出数据速率(B/s),取一分钟的平均值 |
::: | 消费者失败请求(次/s) | 消费者失败的请求个数,取一分钟的平均值 |
::: | 生产者失败请求(次/s) | 生成者失败请求的个数,取一分钟的平均值 |
::: | Broker拒绝的消息(B/s) | Broker拒绝的消息量,取一分钟的平均值 |
::: | leader选举速率(ms) | Broker宕机时,集群应该在尽可能短的时间内完成leader选举 |
::: | controller存活数目(个) | 集群同一时间有且最多只能有一个controller,与下述管理节点个数(个)指标相同 |
::: | 生产者请求响应时间(ms) | 生产者平均响应时间 |
::: | 生产者QPS(次/s) | 生产者QPS,取一分钟的平均值 |
::: | 消费者请求响应时间(ms) | 消费者平均响应时间 |
::: | 消费者QPS(次/s) | 消费者QPS,取一分钟的平均值 |
::: | Kafka存活节点个数(个) | 集群节点存活数量统计,值应该与集群节点数相同 |
::: | Follower落后Leader最大消息量(个) | follower落后leader replica的最大的消息数量 |
::: | 分布在该节点上的分区总数(个) | 该节点上分区总数 |
::: | 分布在该节点上的leader分区总数(个) | 该节点上leader分区总数 |
::: | 未复制的分区总数(个) | 待做复制的分区的数量,正常值为0 |
::: | ISR收缩速率(个/s) | ISR的收缩(shrink)速率。<\br> 如果一个broker挂掉了,一些partition的ISR会收缩。<\br> 当那个broker重新起来时,一旦它的replica完全跟上,ISR会扩大(expand)。<\br> 除此之外,正常情况下,此值和下面的扩大速率都是0 |
::: | ISR扩大速率(个/s) | ISR的扩大(expansion)速率,参见ISR的收缩(shrink)速率 |
::: | 管理节点个数(个) | 当前的broker是否为controller。<\br> 在集群中只有一个broker的这个值为1,其他值为0,如果都为0,集群有问题。 |
::: | 离线分区总数(个) | 离线的partition个数 |
节点指标 | CPU使用率(%) | 节点的CPU使用率 |
::: | 磁盘读/写吞吐(Kb/s) | 磁盘读写吞吐量 |
::: | 磁盘读/写次数(次/s) | 磁盘读写次数 |
::: | 网卡出/入带宽(Kb/s) | 网卡出入带宽值 |
::: | 网卡出/入包量(个/s) | 网卡出入包量 |
::: | 内存使用率(%) | 节点的内存使用率 |
::: | 数据盘使用率(%) | 节点数据盘使用率 |
::: | 系统盘使用率(%) | 节点系统盘使用率 |
zookeeper指标 | zk当前活跃连接数(个) | zk当前活跃连接个数 |
::: | zk最大请求延时(ms) | zk最大请求延时 |
::: | zk平均请求延时(ms) | zk平均请求延时 |
::: | zk最小请求延时(ms) | zk最小请求延时 |
::: | zk总发送响应数(万个) | zk总发送响应数 |
::: | zk总接收响应数(万个) | zk总接收响应数 |
::: | zk待处理连接数(个) | zk待处理连接数 |
:: | watcher数量(个) | watch机制用于数据变更时zookeeper的主动通知。<\br> watch可以被附加到每一个节点上,那么如果一个应用有10W个节点,<\br>那zookeeper中就可能有10W个watch(甚至更多) |
::: | znode数量(个) | znode是zookeeper的节点,类似文件系统的目录或者文件 |