跳到主要内容

监控指标

4大黄金指标

Four Golden Signals是Google针对大量分布式监控的经验总结,4个黄金指标可以在服务级别帮助衡量终端用户体验、服务中断、业务影响等层面的问题。

主要关注与以下四种类型的指标:

  • 延迟:服务请求所需时间 记录用户所有请求所需的时间,重点是要区分成功请求的延迟时间和失败请求的延迟时间。
  • 通讯量:监控当前系统的流量, 也就是常说的QPS 用于衡量组件和系统的“繁忙程度”,这可以捕获服务的负载需求,以便了解系统当前执行的工作量。
  • 错误率:监控当前系统所有发生的错误请求,衡量当前系统错误发生的速率
  • 饱和度:衡量当前服务的饱和度 主要包含内存、CPU、磁盘I/O、网络的使用情况

监控指标

监控指标主要包含应用本生、Go进程、HTTP/gRPC等常见指标。

具体如下:

App监控

  • 延迟 Latency
  • 流量 QPS
  • 错误码 Error Code
  • 饱和度 内存、CPU

Go进程监控

  • Go协程数
  • 请求体大小
  • 响应体大小

HTTP指标监控

gRPC指标监控

gRPC客户端

  • 请求速率(request inbound rate)
  • unary请求错误率(unary request error rate)
  • unary请求错误百分比(unary request error percentage)

gRPC服务端

  • 请求速率(request inbound rate)
  • unary请求错误率(unary request error rate)
  • unary请求错误百分比(unary request error percentage)

Grafana监控图

todo: 使用截图