Skip to main content

CloudWatch 监控&报警

Metrics 是系统可观测非常重要的分析数据。AutoMQ 支持通过 CloudWatch 透出原生 Apache Kafka 的多项 Metrics 数据。

Metrics 采集、应用原理

AutoMQ 内部组件支持收集 Kafka Server 各项 Metrics 数据,但当前商业版本暂不提供内置的 Metrics 仪表盘和监控告警能力,用户可基于 AutoMQ 提供的集成功能实现自定义 Metrics 监控和分析,整体的架构参考下图:

参考上图,使用 Metrics 集成功能管理集成▸ 将 Metrics 数据转发到CloudWatch 服务。

CloudWatch Metrics 定义

上述集成中透出的相关 Metrics 的详细定义参考如下:

指标名称
指标说明
kafka_controller_active_count
  • 含义:活跃的 Controller 节数数量,单位个。
  • Dimension:集群
kafka_network_io_bytes_in_sec
  • 含义:写入流量吞吐,单位 Byte/s。
  • Dimension:集群,Topic
kafka_network_io_bytes_out_sec
  • 含义:读取流量吞吐,单位 Byte/s。
  • Dimension:集群,Topic
kafka_server_connection_count
  • 含义:客户端连接数,单位个。
  • Dimension:集群
kafka_partition_total_count
  • 含义:集群内分区总数,不考虑副本,单位个。
  • Dimension:集群
kafka_topic_count
  • 含义:集群内 Topic 总数,单位个。
  • Dimension:集群
kafka_conume_offset_lag
  • 含义:消费堆积消息数量,单位条。
  • Dimension:Topic,Consumer Group
kafka_message_count_in_sec
  • 含义:每秒钟写入的消息条数,单位条/秒。
  • Dimension:集群,Topic
kafka_partition_offline_count
  • 含义:集群内离线无主分区数量,单位个。
  • Dimension:集群
kafka_log_size
  • 含义:消息存储空间大小,单位 Byte。
  • Dimension:集群,Topic