Skip to main content

概述

系统巡检是 AutoMQ Copilot for RocketMQ 进行集群风险治理的重要模块。本文介绍 AutoMQ Copilot for RocketMQ 系统巡检的功能定义、使用场景价值以及主要功能流程。

本文中提及的 RocketMQ Copilot 术语是 AutoMQ Copilot for RocketMQ 的简称,均特指安托盟丘(杭州)科技有限公司面向 Apache RocketMQ 设计实现的消息队列智能辅助运维系统。

应用场景

场景一:内置线上配置调优巡检,提前规避不合理非法配置风险

用户自建 Apache RocketMQ 集群,在生产环境深度使用时必然涉及到各种复杂的参数配置调优问题,其主要挑战来自如下原因:

  • 配置项多且复杂:Apache RocketMQ 拥有数百个复杂配置参数,各个参数之间也存在相互依赖和影响,如果需要深度了解作用需要耗费大量的研发人力持续投入。
  • 参数调优需要结合实际:Apache RocketMQ 的大部分配置需要结合实际集群的应用场景、集群规模、动态水位做实时调整。一成不变、固定的参数不能匹配实际需求。
  • 不合理参数极易引起故障:Apache RocketMQ 涉及的部分参数如果配置不合理,极易引起线上运行风险和故障,这些风险通过前期一次性排查无法发现,只能实时监控。

RocketMQ Copilot 基于研发团队十多年 RocketMQ 运维经验,沉淀了一系列针对 RocketMQ NameServer、Broker 组件的参数配置自动化巡检,用户只需一键添加集群,即可根据集群的运行状态实时发现非法配置、异常配置、不合理配置。关于完整的巡检规则,参考巡检规则管理▸

场景二:内置风险分析和治理建议,提前发现风险并快速解决

自建 Apache RocketMQ 集群,需要面向架构和实现原理做针对性观测监控,确保能够及时发现集群运行状态的风险和异常,在业务方受损之前感知风险、解决风险。

而当下达到上述目标仍然存在挑战:

  • 缺少深层次业务风险探测机制:开源项目已有的可观测体系大多聚焦于基础的用量水位的 Metrics 监控,缺少针对 RocketMQ 业务逻辑的异常监控,例如订阅关系不一致风险、读写流量热点等风险。
  • 发现风险缺少专家经验解决:针对 RocketMQ 使用过程中高频出现的风险和异常,缺少专家经验给出排查根因和处理建议。

RocketMQ Copilot 通过系统巡检可以一站式完成异常事件探测以及风险分析,并且针对每项风险给出对应的处理建议帮助用户快速解决风险。关于完整的风险治理,参考风险治理▸

功能定义

参考上述应用场景,360系统巡检是通过周期性执行一系列预置巡检规则和检查项目,判断 RocketMQ 集群、Topic 和 ConsumerGroup 是否产生异常事件,针对同一资源同类型事件归纳为风险项,给出风险处理建议从而帮助客户体系化处理潜在运维风险。

关于系统巡检的核心功能流程参考下图:

其中,主要功能模块参考如下文档:

  • 巡检规则管理:RocketMQ Copilot 内置一系列巡检规则默认自动运行,如有特殊不满足情况可以前往规则管理页面调整规则,详情参考巡检规则管理▸
  • 事件审计:RocketMQ Copilot 基于标准 CloudEvent 1.0 事件规范定义了一系列异常事件和操作事件,用户可参考事件规范 AutoMQ Copilot 事件列表▸ 了解异常信息和内容。
  • 风险治理:当系统巡检产生异常事件后,Copilot 会对同一个集群、Topic、ConsumerGroup 资源的异常事件进行聚合归纳,产生风险项。用户可参考风险项给出的建议去处理风险,操作说明参考风险治理▸