Skip to main content

概述

专家诊断是 AutoMQ Copilot for RocketMQ 提供的线上问题自助排查工具。本文介绍 AutoMQ Copilot for RocketMQ 专家诊断的功能定义、使用场景价值以及主要功能流程。

本文中提及的 RocketMQ Copilot 术语是 AutoMQ Copilot for RocketMQ 的简称,均特指安托盟丘(杭州)科技有限公司面向 Apache RocketMQ 设计实现的消息队列智能辅助运维系统。

应用场景

场景一:消息收不到、未消费等高频问题缺乏有效工具快速定位原因和责任

用户自建 Apache RocketMQ 集群运维过程遇到收发消息应用反馈消息收不到、消息没有消费等高频问题,需要耗费大量时间定位原因和责任:

  • 高频问题缺乏专业经验沉淀:消息系统耦合了上下游业务系统,出现收发问题时,如果没有专业经验很难快速判断问题范围和责任方,带来大量人力消耗。
  • 缺少一站式信息收集和问题排查工具:问题排查需要使用 CLI、API、日志文件等多种工具渠道,缺少一站式信息收集和分析工具,排查效率低。

场景二:线上集群偶发问题没有保留现场,无法定位根因

线上集群经常遇到偶发问题且无法实时复现,同时,缺乏问题时间点的现场信息导致无法定位根因。

  • 缺少历史异常数据:缺少针对 RocketMQ 业务逻辑的持续异常监控,导致业务异常消失后,即缺少异常期间的业务行为数据。

AutoMQ Copilot 内置持续的系统巡检、系统日志分析、Metrics 数据系统,可以一站式收集问题信息,持续保存。当出现问题时可以快速查询历史数据,并基于专家经验沉淀了分析模板,可以在数十秒内定位消息未消费、消费堆积等高频问题。

功能定义

专家诊断是通过 AutoMQ Copilot for RocketMQ 预置的一系列问题排查模板实现线上故障问题的快速自助诊断工具。

当出现线上问题时,用户选择最接近的模板,录入少量业务信息即可开启异步诊断任务,输出问题的分析报告,帮助用户快速定位问题。

关于专家诊断的核心功能流程参考下图:

其中,主要功能模块参考如下文档:

  • 收集问题信息:线上出现问题时,需要收集必要的关联资源信息,例如集群、Topic、ConsumerGroup 等信息。
  • 选择模板提交诊断任务:AutoMQ Copilot for RocketMQ 提供了多个 RocketMQ 运维的高频问题模板,根据模板适用范围选择合适的模板,录入问题信息提交诊断任务。
  • 查看诊断报告定位问题:任务提交后,AutoMQ Copilot for RocketMQ 会异步收集相关信息并完成分析诊断,用户可以查看输出的诊断报告,根据报告中给出的排查建议解决问题。