全景概览
全景概览是 AutoMQ Copilot for RocketMQ 面向 RocketMQ 运维人员提供的可视化数据大盘。全景概览是面向运维人员每日巡检、大促汇报、业务决策等场景提供一键信息收集展示,方便运维人员快速定位各个集群的风险特征和业务特征。本文介绍 AutoMQ Copilot for RocketMQ 全景概览的功能使用。
本文中提及的 RocketMQ Copilot 术语是 AutoMQ Copilot for RocketMQ 的简称,均特指安托盟丘(杭州)科技有限公司面向 Apache RocketMQ 设计实现的消息队列智能辅助运维系统。
应用场景
场景一:运维团队每日巡检快速感知集群风险
自建 Apache RocketMQ 集群运维过程往往会遇到如下困扰。日常巡检需要关注哪些集群状态,哪些参数指标可能代表集群有风险。
- 直接登录机器巡检,太繁重易遗漏:直接面向机器运维查看指标,容易遗漏,且繁琐。
- 缺少历史 Metrics 数据:每日巡检本质上是对集群重要 Metrics 的展示分析,缺少历史 Metrics 将不利于分析风险变化的趋势。
场景二:重大业务规划和决策,缺少业务特征数据支撑
线上各个 RocketMQ 集群业务指标特征,缺少数据沉淀,在做重大业务决策和规划时,缺少重要的业务特征数据做支撑。例如:
- 消息类型分布:RocketMQ 支持多消息类型,实际集群中使用的比例如何,是否运维变更会影响到这部分业务,需要数据支撑。
- 客户端版本分布:服务端版本升级规划,需要评估客户端兼容性,需要了解客户端版本分布情况和风险。
场景三:紧急问题排查,快速缩小嫌疑范围
线上排查紧急问题时,往往需要在集群维度快速缩小嫌疑和排查范围,此时需要面向 Topic、Group 等业务特征的识别。例如:
- 消息写入量 Top 排序:集群压力大出现问题时,往往需要知道造成写入压力最大的 topic 有哪些。
- 消费堆积 Group 排序:集群出现堆积冷读的情况下,往往需要知道堆积最严重的 Group 是哪些。
前置条件
使用 RocketMQ Copilot 全景概览,需要先接入集群组和相关的集群,接入集群后 RocketMQ 会启动定时探测程序获取相关的指标和监控数据。关于集群组接入和集群接入,参考文档步骤二:接入集群组和集群▸ 。
对于 SLI 和 SLO 的数据展示,同样需要先开启 SLI 探测并录入 SLO 目标管理,相关操作参考文档管理集群 SLI▸ 管理集群 SLO▸ 。
集群组概览
RocketMQ Copilot 在集群组维度提供如下数据展示:
数据项 | 展示类型 | 数据来源 | 业务指导意义 |
---|---|---|---|
集群组拓扑关系 | 逻辑拓扑图 | 实时 Admin API | 展示当前集群组下的主要集群概括,包含如下信息: - 集群节点 - 集群读写 TPS |
风险等级分布 | 饼状图 | 系统巡检 | 展示当前集群组下各集群,出现风险的占比情况 |
服务端版本分布 | 饼状图 | 实时 Admin API | 展示当前集群组下各Broker 部署的版本信息 |
集群概览
RocketMQ Copilot 在集群粒度提供如下数据展示:
数据项 | 类型 | 数据源 | 业务指导意义 |
---|---|---|---|
SLO 达标情况分布 | 饼状图 | SLO管理 | 展示当前集群 SLO 的达标情况 |
系统巡检风险项分布 | 饼状图 | 系统巡检 | 展示当前集群风险项和风险等级情况 |
消息生产&消费 TPS | 折线图 | 系统 Metrics | 展示当前集群的消息收发流量指标 |
消息大小分布 | 柱状图 | 系统 Metrics | 展示当前集群内消息大小的分布 - 小于 1KB - 1~4KB - 4~512KB - 512~1024KB - 大于 1MB |
消息生产调用成功率 SLI | 折线图 | SLI 探测 | 展示系统 SLI 指标,用于评估稳定性风险 |
消息生产调用 RT SLI | 折线图 | SLI 探测 | 展示系统 SLI 指标,用于评估稳定性风险 |
消息消费 E2E 延迟 SLI | 折线图 | SLI 探测 | 展示系统 SLI 指标,用于评估稳定性风险 |
系统队列调度延迟 SLI | 折线图 | SLI 探测 | 展示系统 SLI 指标,用于评估稳定性风险 |
磁盘水位 Top5 Broker | 折线图 | 系统 Metrics | 按照运维场景提供 Broker 粒度的负载排序,方便运维人员找出热点 Broker |
生产 TPS Top5 Broker | 折线图 | 系统 Metrics | 按照运维场景提供 Broker 粒度的负载排序,方便运维人员找出热点 Broker |
消费 TPS Top5 Broker | 折线图 | 系统 Metrics | 按照运维场景提供 Broker 粒度的负载排序,方便运维人员找出热点 Broker |
消息生产 TPS Top5 Topic | 折线图 | 系统 Metrics | 按照运维场景提供 Topic 粒度的负载排序,方便运维人员找出热点 Topic |
消息体大小 Top5 Topic | 折线图 | 系统 Metrics | 提供消息体最大的 Topic 排序,方便运维人员定位大消息风险 Topic |
消费 TPS Top5 Group | 折线图 | 系统 Metrics | 按照运维场景提供 Group 粒度的负载排序,方便运维人员找出热点 Group |
消费堆积量 Top5 Group | 折线图 | 系统 Metrics | 帮助运维人员快速定位消费堆积最严重的ConsumerGroup |
消费堆积延迟 Top5 Group | 折线图 | 系统 Metrics | 帮助运维人员快速定位消费堆积最严重的ConsumerGroup |
消费耗时 Top5 Group | 折线图 | 系统 Metrics | 帮助运维人员快速定位消费耗时最大的ConsumerGroup |
消费冷读 Top5 Group | 折线图 | 系统 Metrics | 帮助运维人员快速定位消费冷读最严重的ConsumerGroup |
消费失败次数Top5 Group | 折线图 | 系统 Metrics | 帮助运维人员快速定位消费失败次数最多的 ConsumerGroup |
产生死信消息Top5 Group | 折线图 | 系统 Metrics | 帮助运维人员快速定位失败已经触发死信的ConsumerGroup |