Skip to Main Content

消息轨迹启用开关配置项检查

巡检规则

本文中提及的 RocketMQ Copilot 术语是 AutoMQ Copilot for RocketMQ 的简称,均特指安托盟丘(杭州)科技有限公司面向 Apache RocketMQ 设计实现的消息队列智能辅助运维系统。

检测数据源

消息轨迹启用开关配置项的检测数据源是目标集群 BrokerConfig 信息,通过读取目标集群当前生效的配置,判断是否处于异常和风险的状态。

检测周期

  • 每 10 分钟一次。
  • 可关闭。

异常检测逻辑


[BrokerConfig#traceOn](https://github.com/apache/rocketmq/blob/release-4.9.4/common/src/main/java/org/apache/rocketmq/common/BrokerConfig.java#L132C21-L132C28) = false,则产生异常事件。

事件和风险

RocketMQ Copilot 系统巡检会对检测不通过的规则产生异常事件和风险,异常事件遵循 概述▸

异常事件

异常风险

  • 关联的风险类型:消息轨迹被禁用

风险分析

客户端消息轨迹是否生效由其自身的开关和业务消息发送/消费对应的目标 Cluster 的开关共同决定。只有两者同时启用时,客户端才会往消息轨迹 Topic 发送轨迹数据。

消息集群的消息轨迹开关如果关闭,客户端的消息轨迹功能也不会生效,导致消息发送,消费等业务行为缺乏有效的可观测手段。

运维建议

建议 1:测试开发集群建议直接开启消息轨迹

测试开发集群由于业务逻辑变更频繁,需要经常查询消息是否消费,因此建议直接在测试开发集群开启消息轨迹,方便日常排查问题。

建议 2:生产集群如果消息量比较大,建议部署独立的消息轨迹集群

消息轨迹复用了 RocketMQ 集群的存储和处理,如果生产环境消息量比较大,建议部署独立的消息轨迹集群。