术语概念
本文介绍 AutoMQ Copilot for RocketMQ涉及到的名词术语和基础概念,以便您更好地理解和使用AutoMQ Copilot for RocketMQ。
本文中提及 AutoMQ 产品服务方、AutoMQ 服务方、AutoMQ,均特指安托盟丘(杭州)科技有限公司。
本文中提及的 RocketMQ Copilot 术语是 AutoMQ Copilot for RocketMQ 的简称,均特指安托盟丘(杭州)科技有限公司面向 Apache RocketMQ 设计实现的消息队列智能辅助运维系统。
依据从顶层到底层,从总体到细节的分类原则,其中主要的术语概念关系如下图所示:
术语明细
订阅计划(Subscription Plan)
订阅计划是用户在 AutoMQ 选择的一种服务付费协议,用于约定使用 AutoMQ 提供的 RocketMQ Copilot 软件服务的付费方式、付费价格、服务期限以及资源配额等细节。
RocketMQ Copilot 订阅计划根据不同的阶梯版本可以分为免费试用版、标准版、企业版等多个系列,根据付费类型的差异又可以分为云市场支付订阅计划和 AutoMQ 支付订阅计划。详情分类参考订阅计划概述▸ 详情介绍。
支付方式(Payment Type )
支付方式是约定付费类订阅计划的支付方式,确定以什么支付账号渠道进行付费。AutoMQ Cloud 支持官网费用中心支付、公共云厂商云市场关联账号支付等多种类型。详情分类参考订阅计划概述▸ 详情介绍。
订阅状态(Subscription Status)
订阅状态是订阅计划生命周期的状态标识,用于确定订阅计划当前处于什么状态,是否可用等信息。订阅状态一般由服务中、已到期两种状态枚举组成。
安装( Installation)
安装代表了 RocketMQ Copilot 软件的有效运行实体和副本。RocketMQ Copilot 使用安装作为软件激活和订阅管理的实体单位。
每一个安装都提供 RocketMQ Copilot 完整独立的功能,一般建议用户按照业务团队、运维级别用途等方式拆分多次安装。例如生产、测试用途使用不同的安装进行隔离。详情参考概述▸ 。
安装状态( Installation Status )
安装状态是指安装本身的部署运行状态,用于标识当前安装是否处于运维变更、服务异常或者服务到期的状态。安装状态一般由创建中、服务中、服务异常、变更中、已到期、已释放等枚举类型组成。
安装 ID(Install ID)
RocketMQ Copilot 底层部署模块为每次安装生成的环境指纹信息,用于唯一标识当前安装信息,Copilot 使用流程需要记录每个安装 ID 并为其生成匹配激活使用的产品秘钥。每次变更安装、重新安装都会生成新的安装 ID。
产品秘钥(Product Secret)
RocketMQ Copilot 为每个独立的安装 ID 生成的用于激活和管理当前安装有效性的秘钥信息。产品秘钥中包含了当前安装所对应的订阅计划信息。如果为某个安装更新了订阅计划,则需要重新生成产品秘钥并替换更新到安装环境中。
集群组(Cluster Group)
集群组是表达 RocketMQ 一组 Nameserver 以及注册到 Nameserver 下的所有 Broker 集群的业务集群范围,通过集群组配置,Copilot 实现运行逻辑隔离。
集群(Cluster)
集群是表达 RocketMQ 一组 Broker 的业务集群范围,通过集群配置,Copilot 实现精确范围的巡检纳管和展示。
系统巡检(System Inspection)
系统巡检是 RocketMQ Copilot 基于十多年专家经验沉淀的一系列运维检查和分析项目,基于系统巡检可以快速判断当前集群是否健康运行和是否有异常情况产生。
巡检规则(Inspection Rule)
巡检规则是系统巡检功能中针对一个或者多个资源的一个或者多个Metrics指标、Event事件做出预置规则的检查,并基于检查规则判断是否产生对应的异常事件。
异常事件(Abnormal Event)
异常事件是系统巡检功能中基于检查规则判断不通过而产生的事件,用于记录对应资源和检查项目的状态异常。
操作事件(Operation Event)
操作事件是 RocketMQ Copilot 记录用户对 RocketMQ 集群的重要操作行为而产生的痕迹事件。
风险项(Risk Term)
风险项是对巡检产生的异常事件归类聚合得到的巡检结论,通过风险描述、数据详情和解决建议等信息帮助客户提前识别和解除运维风险。
风险建议(Risk Suggestion)
风险建议是基于 RocketMQ 团队的运维经验总结出的针对各类风险项的应急处理建议,遵循风险建议快速处理和收敛相应的风险,以使得集群尽快恢复健康低风险状态。
专家诊断(Expert Diagnosis )
专家诊断是 RocketMQ 团队基于的丰富运维经验沉淀出的自助问题排查工具。当用户线上出现问题时,快速选择某个预置问题排查模板,录入少量业务信息即可开启异步诊断任务,即可输出问题的分析报告,帮助客户快速定位问题。
诊断任务(Diagnosis Task)
诊断任务是用户在专家诊断系统内提交的一次诊断请求的完整上下文,包含了输入信息、任务运行状态和诊断结果。
诊断项(Diagnosis Term)
诊断项是专家诊断系统内基于场景编排的一系列原子化、细粒度的检查项目,用于确认整个问题的原因。
SLO(SLO)
SLO 是 RocketMQ 团队基于大规模集群运维经验沉淀出的科学化、数字化的集群服务风险度量体系。通过选择合适的预置 SLI 指标,设置好业务预期的服务能力目标,即可快速观测、监控整个集群的服务健康水平是否处于合理范围。
容量规划(Capacity Planning)
容量规划是 RocketMQ Copilot 对单一目标集群的容量基线、预警水位以及预警规则的统一配置。创建针对集群的容量规划的配置后可以实现对未来一段时间内的容量预测和提前预警,辅助运维人员提前采购资源进行扩缩容处理。
容量基线(Capacity Baseline)
容量基线是 RocketMQ Copilot 对 RocketMQ 集群安全运行的性能指标上限的定义。通过容量基线可以确认每个集群允许的例如消息发送TPS、消息消费 TPS 等核心指标的安全水位上限。
预警水位(Warning Level)
预警水位是用户在 RocketMQ Copilot 系统中为每个集群设置的用于提前预警的容量水位线。通常基于容量基线设置百分比,例如设置预警水位为容量基线的 70%。