Topic 跨集群分布检查
巡检规则
本文中提及的 RocketMQ Copilot 术语是 AutoMQ Copilot for RocketMQ 的简称,均特指安托盟丘(杭州)科技有限公司面向 Apache RocketMQ 设计实现的消息队列智能辅助运维系统。
检测数据源
Topic 跨集群分布检查的检测数据源是多个集群的 Topic配置信息,通过读取多个目标集群内是否存在相同的 topic,判断是否存在风险。
检测周期
- 每 10 分钟一次。
- 不可关闭。
异常检测逻辑
检查各个集群下 Topic 是否存在交集,如果存在交集则产生异常事件。
事件和风险
RocketMQ Copilot 系统巡检会对检测不通过的规则产生异常事件和风险,异常事件遵循 概述▸ 。
异常事件
- 异常事件类型:copilot:topic:TopicAcrossMultipleClusterInspectionFailed
- 关于事件的详细 schema 定义,异常事件:主题跨多个集群分布▸ 。
异常风险
- 关联的风险类型:主题跨多个集群分布
风险分析
RocketMQ 中,按照运维最佳实践,Topic 应该以 Cluster 粒度被创建和管理对外提供服务,如果不涉及特殊运维窗口,一个 Topic 应该只在一个集群内提供服务。
如果 Topic 存在跨 Cluster 分布,会为 Topic 资源的管理带来混乱,容易造成运维事故。
运维建议
建议 1:生产环境按照集群粒度创建和管理 Topic
生产环境建议按照集群粒度创建和管理 Topic,避免在多集群内创建相同的 Topic。