风险告警
本文介绍 AutoMQ Copilot for RocketMQ 风险告警的概念定义、告警规则配置以及验证流程。
本文中提及的 RocketMQ Copilot 术语是 AutoMQ Copilot for RocketMQ 的简称,均特指安托盟丘(杭州)科技有限公司面向 Apache RocketMQ 设计实现的消息队列智能辅助运维系统。
定义
参考概述▸和 风险治理▸ ,用户开启系统巡检后,RocketMQ Copilot 检测到异常问题时产生风险项,由运维人员参考处理流程进行风险处理和关闭。
在生产环境场景中,运维人员需要及时感知到已经产生的风险项。RocketMQ Copilot 提供了风险告警功能,在产生风险并满足一定的报警规则条件后,及时通过 webhook 通道发送告警信息通知运维人员及时上线处理风险。
风险告警规则
风险告警规则是 RocketMQ Copilot 用于约定触发告警通知相关的配置信息,主要包括了风险类型、触发条件、通知配置几个信息。
风险告警规则是按照风险类型粒度管理,即每个风险类型有且仅有一个报警规则。当任意Topic、Group 出现对应类型的风险时,都可以触发报警通知。
属性:风险类型
风险类型是指当前告警规则匹配的目标风险项的类型,RocketMQ Copilot 支持的所有风险类型参考附录:风险项列表▸ 。
属性:告警条件
告警条件是用来约定触发通知告警的条件,当满足告警条件时才会产生告警事件。RocketMQ Copilot 目前支持如下告警条件。
告警条件 | 自定义参数 | 适用场景 |
---|---|---|
风险产生「n」分钟内,没有完成处理 | - 参数含义:最早风险产生到当前时间的时间范围。 - 参数范围:5分钟 - 7 天 | - 适用于非紧急故障类风险。 - 用于约束运维人员及时处理风险。 |
风险内累计异常事件产生「n」次 | - 参数含义:当前风险项类累计产生的事件次数。 - 参数范围:1 次 - 10000 次 | - 适用于过滤一些偶发的异常事件,避免报警条件过于敏感。 |
属性:通知规则
通知规则用于约定报警系统处理通知的细节流程,主要包括静默方式以及 webhook 通道的配置。
静默方式
静默方式用于配置连续触发告警通知时,如何做合并和静默,避免频繁的告警通知疲劳。
RocketMQ 静默支持:
- 连续触发告警通知的情况下,确保在 N 分钟内只发送一次通知。
- 连续触发 N 个通知后,则不再通知,直到报警恢复。
webhook 通道
webhook 通道用于配置发送告警通知的目标通道信息,此处直接引用已经创建存在的 webhook,如果当前没有可用的 webhook,则需要先创建再配置报警规则。创建 webhook 参考不存在的标题▸ 。
风险报警操作
查看风险告警规则
在初始化添加集群组和集群后,日常运维期间可以登录 RocketMQ Copilot 查看集群风险告警规则,具体操作流程如下:
- 登录RocketMQ Copilot,前往左侧菜单栏,点击风险治理。
- 找到目标集群,点击查看详情,查看风险报警规则列表。
- 用户可查看当前集群内已经配置的风险告警规则。风险告警规则有两种状态。
- 已开启:当前告警规则已经配置并开启,满足告警规则后则会触发通知。
- 已关闭:用户可以关闭告警规则,关闭后则不再触发报警通知,关闭告警规则可以支持短时间临时关闭以及长期持续关闭。
添加风险告警规则
用户在风险项列表或者风险告警规则列表都可以按需创建告警规则。具体操作流程如下:
- 登录 RocketMQ Copilot,前往风险治理,点击目标集群进入风险规则列表页。
- 添加风险告警规则,填写相关配置信息。
- 预览最终的风险告警信息,确认后添加风险告警规则。