etcd 监控项梳理
指标 | 类型 | 说明 |
---|---|---|
etcd_server_has_leader | Gauge | etcd member是否有Leader。
|
etcd_server_is_leader | Gauge | etcd member是否是Leader。
|
etcd_server_leader_changes_seen_total | Counter | etcd member过去一段时间切主次数。 |
etcd_mvcc_db_total_size_in_bytes | Gauge | etcd member db总大小。 |
etcd_mvcc_db_total_size_in_use_in_bytes | Gauge | etcd member db实际使用大小。 |
etcd_disk_backend_commit_duration_seconds_bucket | Histogram | etcd backend commit延时。
Bucket列表为: |
etcd_debugging_mvcc_keys_total | Gauge | etcd keys总数。 |
etcd_server_proposals_committed_total | Gauge | raft proposals commit提交总数。 |
etcd_server_proposals_applied_total | Gauge | raft proposals apply总数。 |
etcd_server_proposals_pending | Gauge | raft proposals排队数量。 |
etcd_server_proposals_failed_total | Counter | raft proposals失败数量。 |
功能解析:
指标 | 类型 | 说明 |
---|---|---|
etcd_server_has_leader | Gauge | etcd member是否有Leader。
|
etcd_server_is_leader | Gauge | etcd member是否是Leader。
|
etcd_server_leader_changes_seen_total | Counter | etcd member过去一段时间切主次数。 |
etcd_mvcc_db_total_size_in_bytes | Gauge | etcd member db总大小。 |
etcd_mvcc_db_total_size_in_use_in_bytes | Gauge | etcd member db实际使用大小。 |
etcd_disk_backend_commit_duration_seconds_bucket | Histogram | etcd backend commit延时。
Bucket列表为: |
etcd_debugging_mvcc_keys_total | Gauge | etcd keys总数。 |
etcd_server_proposals_committed_total | Gauge | raft proposals commit提交总数。 |
etcd_server_proposals_applied_total | Gauge | raft proposals apply总数。 |
etcd_server_proposals_pending | Gauge | raft proposals排队数量。 |
etcd_server_proposals_failed_total | Counter | raft proposals失败数量。 |
常见异常指标
正常情况 | 异常情况 | 异常说明 |
---|---|---|
3个etcd member都有Leader,且其中之一必须为Leader。即sum(etcd_server_has_leader)=3 ,且有一个member etcd_server_is_leader == 1 。 |
单个Member异常 | 对应的member etcd_server_has_leader!=1 ,不影响整体etcd集群对外提供服务。 |
大于1个Member异常 | 多个member etcd_server_has_leader!=1 ,Member异常大于1,此时etcd集群无法对外提供服务。
同时观察是否存在Member的 |
backend commit时延
正常情况 | 异常情况 | 异常说明 |
---|---|---|
该指标应该处于几十ms级别。 | 长时间出现几百ms甚至秒级别的延迟。 | 说明此时磁盘读写有异常。 |
raft proposal情况
正常情况 | 异常情况 | 异常说明 |
---|---|---|
raft proposal failed速率为0。 | raft proposal failed大于0。 | 表明Raft协议提交有失败,如遇到此值很大,则需进一步排查。 |
raft proposal pending总数为0。 | raft proposal pending总数大于0。 | 表明Raft协议提交有积压,一般是Apply慢,可结合backend commit时延进行分析。 |
commit-apply差值为0。 | commit - apply差值大于0。 | 表明此时etcd压力大,客户端请求过多。
若此值大于5000,etcd则会拒绝接后续的请求,并返回 |