Skip to Main Content

风险告警

本文介绍 AutoMQ Copilot for RocketMQ 风险告警的概念定义、告警规则配置以及验证流程。

本文中提及的 RocketMQ Copilot 术语是 AutoMQ Copilot for RocketMQ 的简称,均特指安托盟丘(杭州)科技有限公司面向 Apache RocketMQ 设计实现的消息队列智能辅助运维系统。

定义

参考概述▸风险治理▸ ,用户开启系统巡检后,RocketMQ Copilot 检测到异常问题时产生风险项,由运维人员参考处理流程进行风险处理和关闭。

在生产环境场景中,运维人员需要及时感知到已经产生的风险项。RocketMQ Copilot 提供了风险告警功能,在产生风险并满足一定的报警规则条件后,及时通过 webhook 通道发送告警信息通知运维人员及时上线处理风险。

风险告警规则

风险告警规则是 RocketMQ Copilot 用于约定触发告警通知相关的配置信息,主要包括了风险类型、触发条件、通知配置几个信息。

风险告警规则是按照风险类型粒度管理,即每个风险类型有且仅有一个报警规则。当任意Topic、Group 出现对应类型的风险时,都可以触发报警通知。

属性:风险类型

风险类型是指当前告警规则匹配的目标风险项的类型,RocketMQ Copilot 支持的所有风险类型参考附录:风险项列表▸

属性:告警条件

告警条件是用来约定触发通知告警的条件,当满足告警条件时才会产生告警事件。RocketMQ Copilot 目前支持如下告警条件。

告警条件自定义参数适用场景
风险产生「n」分钟内,没有完成处理- 参数含义:最早风险产生到当前时间的时间范围。
- 参数范围:5分钟 - 7 天
- 适用于非紧急故障类风险。
- 用于约束运维人员及时处理风险。
风险内累计异常事件产生「n」次- 参数含义:当前风险项类累计产生的事件次数。
- 参数范围:1 次 - 10000 次
- 适用于过滤一些偶发的异常事件,避免报警条件过于敏感。

属性:通知规则

通知规则用于约定报警系统处理通知的细节流程,主要包括静默方式以及 webhook 通道的配置。

静默方式

静默方式用于配置连续触发告警通知时,如何做合并和静默,避免频繁的告警通知疲劳。

RocketMQ 静默支持:

  • 连续触发告警通知的情况下,确保在 N 分钟内只发送一次通知。
  • 连续触发 N 个通知后,则不再通知,直到报警恢复。

webhook 通道

webhook 通道用于配置发送告警通知的目标通道信息,此处直接引用已经创建存在的 webhook,如果当前没有可用的 webhook,则需要先创建再配置报警规则。创建 webhook 参考不存在的标题▸

风险报警操作

查看风险告警规则

在初始化添加集群组和集群后,日常运维期间可以登录 RocketMQ Copilot 查看集群风险告警规则,具体操作流程如下:

  1. 登录RocketMQ Copilot,前往左侧菜单栏,点击风险治理。
  2. 找到目标集群,点击查看详情,查看风险报警规则列表。
  3. 用户可查看当前集群内已经配置的风险告警规则。风险告警规则有两种状态。
  • 已开启:当前告警规则已经配置并开启,满足告警规则后则会触发通知。
  • 已关闭:用户可以关闭告警规则,关闭后则不再触发报警通知,关闭告警规则可以支持短时间临时关闭以及长期持续关闭。

添加风险告警规则

用户在风险项列表或者风险告警规则列表都可以按需创建告警规则。具体操作流程如下:

  1. 登录 RocketMQ Copilot,前往风险治理,点击目标集群进入风险规则列表页。
  2. 添加风险告警规则,填写相关配置信息。
  3. 预览最终的风险告警信息,确认后添加风险告警规则。