Skip to main content

全景概览

全景概览是 AutoMQ Copilot for RocketMQ 面向 RocketMQ 运维人员提供的可视化数据大盘。全景概览是面向运维人员每日巡检、大促汇报、业务决策等场景提供一键信息收集展示,方便运维人员快速定位各个集群的风险特征和业务特征。本文介绍 AutoMQ Copilot for RocketMQ 全景概览的功能使用。

本文中提及的 RocketMQ Copilot 术语是 AutoMQ Copilot for RocketMQ 的简称,均特指安托盟丘(杭州)科技有限公司面向 Apache RocketMQ 设计实现的消息队列智能辅助运维系统。

应用场景

场景一:运维团队每日巡检快速感知集群风险

自建 Apache RocketMQ 集群运维过程往往会遇到如下困扰。日常巡检需要关注哪些集群状态,哪些参数指标可能代表集群有风险。

  • 直接登录机器巡检,太繁重易遗漏:直接面向机器运维查看指标,容易遗漏,且繁琐。
  • 缺少历史 Metrics 数据:每日巡检本质上是对集群重要 Metrics 的展示分析,缺少历史 Metrics 将不利于分析风险变化的趋势。

场景二:重大业务规划和决策,缺少业务特征数据支撑

线上各个 RocketMQ 集群业务指标特征,缺少数据沉淀,在做重大业务决策和规划时,缺少重要的业务特征数据做支撑。例如:

  • 消息类型分布:RocketMQ 支持多消息类型,实际集群中使用的比例如何,是否运维变更会影响到这部分业务,需要数据支撑。
  • 客户端版本分布:服务端版本升级规划,需要评估客户端兼容性,需要了解客户端版本分布情况和风险。

场景三:紧急问题排查,快速缩小嫌疑范围

线上排查紧急问题时,往往需要在集群维度快速缩小嫌疑和排查范围,此时需要面向 Topic、Group 等业务特征的识别。例如:

  • 消息写入量 Top 排序:集群压力大出现问题时,往往需要知道造成写入压力最大的 topic 有哪些。
  • 消费堆积 Group 排序:集群出现堆积冷读的情况下,往往需要知道堆积最严重的 Group 是哪些。

前置条件

使用 RocketMQ Copilot 全景概览,需要先接入集群组和相关的集群,接入集群后 RocketMQ 会启动定时探测程序获取相关的指标和监控数据。关于集群组接入和集群接入,参考文档步骤二:接入集群组和集群▸

对于 SLI 和 SLO 的数据展示,同样需要先开启 SLI 探测并录入 SLO 目标管理,相关操作参考文档管理集群 SLI▸ 管理集群 SLO▸

集群组概览

RocketMQ Copilot 在集群组维度提供如下数据展示:

数据项展示类型数据来源业务指导意义
集群组拓扑关系逻辑拓扑图实时 Admin API展示当前集群组下的主要集群概括,包含如下信息:
- 集群节点
- 集群读写 TPS
风险等级分布饼状图系统巡检展示当前集群组下各集群,出现风险的占比情况
服务端版本分布饼状图实时 Admin API展示当前集群组下各Broker 部署的版本信息

集群概览

RocketMQ Copilot 在集群粒度提供如下数据展示:

数据项类型数据源业务指导意义
SLO 达标情况分布饼状图SLO管理展示当前集群 SLO 的达标情况
系统巡检风险项分布饼状图系统巡检展示当前集群风险项和风险等级情况
消息生产&消费 TPS折线图系统 Metrics展示当前集群的消息收发流量指标
消息大小分布柱状图系统 Metrics展示当前集群内消息大小的分布
- 小于 1KB
- 1~4KB
- 4~512KB
- 512~1024KB
- 大于 1MB
消息生产调用成功率 SLI折线图SLI 探测展示系统 SLI 指标,用于评估稳定性风险
消息生产调用 RT SLI折线图SLI 探测展示系统 SLI 指标,用于评估稳定性风险
消息消费 E2E 延迟 SLI折线图SLI 探测展示系统 SLI 指标,用于评估稳定性风险
系统队列调度延迟 SLI折线图SLI 探测展示系统 SLI 指标,用于评估稳定性风险
磁盘水位 Top5 Broker折线图系统 Metrics按照运维场景提供 Broker 粒度的负载排序,方便运维人员找出热点 Broker
生产 TPS Top5 Broker折线图系统 Metrics按照运维场景提供 Broker 粒度的负载排序,方便运维人员找出热点 Broker
消费 TPS Top5 Broker折线图系统 Metrics按照运维场景提供 Broker 粒度的负载排序,方便运维人员找出热点 Broker
消息生产 TPS Top5 Topic折线图系统 Metrics按照运维场景提供 Topic 粒度的负载排序,方便运维人员找出热点 Topic
消息体大小 Top5 Topic折线图系统 Metrics提供消息体最大的 Topic 排序,方便运维人员定位大消息风险 Topic
消费 TPS Top5 Group折线图系统 Metrics按照运维场景提供 Group 粒度的负载排序,方便运维人员找出热点 Group
消费堆积量 Top5 Group折线图系统 Metrics帮助运维人员快速定位消费堆积最严重的ConsumerGroup
消费堆积延迟 Top5 Group折线图系统 Metrics帮助运维人员快速定位消费堆积最严重的ConsumerGroup
消费耗时 Top5 Group折线图系统 Metrics帮助运维人员快速定位消费耗时最大的ConsumerGroup
消费冷读 Top5 Group折线图系统 Metrics帮助运维人员快速定位消费冷读最严重的ConsumerGroup
消费失败次数Top5 Group折线图系统 Metrics帮助运维人员快速定位消费失败次数最多的 ConsumerGroup
产生死信消息Top5 Group折线图系统 Metrics帮助运维人员快速定位失败已经触发死信的ConsumerGroup