值班¶
值班功能帮助团队建立 7×24 小时的故障响应机制,确保每个故障都有明确的责任人,并在超时未处理时自动升级,实现“告警必达”。
核心概念¶
值班规则¶
值班规则定义了谁在什么时间负责哪类故障。每条规则包含以下要素:
- 值班人:成员、团队或通知对象;
- 时间段:值班的生效时间范围(支持时区设置);
- 匹配标签/维度:决定哪些故障会路由到此规则;
- 升级策略:超时未处理时的通知升级规则。
升级策略¶
升级策略是附加在值班规则上的一套多级通知机制。当故障在指定时间内未被认领或解决时,系统会按照预设的级别逐级扩大通知范围,确保故障不被遗漏。
匹配标签逻辑¶
故障根据携带的标签自动匹配值班规则。匹配规则支持:
- AND:多个标签需同时满足(全匹配)
- OR:多个标签满足其一即可(部分匹配)
- 通配符:
key:value*支持前缀匹配
示例:
故障标签:{service:payment, env:prod, team:backend}
- 值班规则 A:标签
service:payment AND env:prod→ 匹配 ✓ - 值班规则 B:标签
team:frontend→ 不匹配 ✗ - 值班规则 C:无标签(全局)→ 匹配 ✓(兜底)
注意
若不设置任何匹配标签,该值班规则视为“全局匹配”,会接收所有未被其他规则匹配的故障。
值班日历¶
值班日历提供可视化的排班视图,方便快速了解当前及未来的值班安排。
-
默认视图:进入值班页面后,默认显示“我的值班”。右侧日历高亮显示当前用户参与的所有值班排班,左侧列表列出所有包含当前用户的值班规则;
-
全部值班:点击“全部值班”后,右侧日历展示全体成员的值班排班,左侧列表列出所有值班规则;
-
默认值班:系统内置的“默认值班”会始终显示在值班列表中,不可删除或隐藏;
-
查看详情:点击日历上的色块或成员名称,展示该值班的详细信息,包括关联的值班规则、升级策略以及具体值班时间段。左上角支持切换时区和日期查看历史或未来排班。
值班管理¶
“值班管理”页面以列表的形式集中展示所有值班规则,每条规则列出值班时区、执行周期、值班人、匹配标签及升级策略等关键信息。列表中包含系统默认值班与自定义的值班规则,点击任意条目即可进入其详情页进行深度配置。
为确保故障通知能精准触达且责任闭环,值班策略的配置核心在于建立以下两层保障机制:
-
明确“谁在何时负责”:通过设定值班人、生效时段并开启通知轮换(支持按天、周等周期自动交接),系统实现了责任的清晰排班与自动流转,确保任何时间都有明确的“第一响应人”;
-
预设升级路径(“若无响应如何上报”):通过配置升级策略,构建一条 “T+N 分钟”的逐级通知时间轴。当故障在设定时间内无人处理时,系统会按照此规则,自动将告警通知给其他层级的成员或更广的团队,确保关键故障必达。
新建值班规则¶
创建一条值班规则需要完成以下配置步骤。
基础信息¶
- 输入值班名称;
- 选择值班所依据的时区。
- 选择该值班覆盖的时间段,通过设置生效时间(包含开始时间和结束时间),精确化当前值班的有效期。
匹配标签/维度(可选)¶
此部分决定哪些故障会由本规则处理。若不添加任何标签/维度,则该规则为全局匹配。
-
匹配标签:
- 从下拉列表中选择已有标签。
- 支持直接输入新标签并快速创建,或直接前往“全局标签”进行管理。
-
匹配维度:
-
可选择检测维度(如
service、host),并设置具体的匹配值; -
支持逻辑关系:AND(全匹配,需满足所有条件)或 OR(部分匹配,满足任一条件即可),默认为 AND。
-
值支持通配符,格式为
key:value*,例如service:auth*可匹配auth-api、auth-service等。
-
值班人设置¶
- 选择值班人:可以是一个或多个成员,也可以选择整个团队;
- 开启轮换:如果需要轮流值班,可开启轮换功能。设置轮换周期(例如每天、每周、每月),系统将按照成员列表顺序自动循环排班,并在右侧日历中直观展示排班效果。
轮换示例:
- 开启轮换前:
- 开启轮换后:
注意
如果当前规则未配置任何值班人,则无法添加升级策略。
配置升级策略¶
升级策略确保故障在超时无人处理时,自动将通知范围扩大到更多人或更高级别(❗️升级策略是值班规则的核心,强烈建议配置)。
时间轴机制(T+N)¶
所有时间点的计算均以故障产生时刻为基准(记为 T=0)。系统按照预设的时间间隔依次触发各级通知:
| 触发时刻 | 级别 | 说明 |
|---|---|---|
| T+0 | Level 0 | 故障产生时立即通知(初始) |
| T+5 分钟 | Level 1 | 第一级升级 |
| T+15 分钟 | Level 2 | 第二级升级 |
| T+30 分钟 | Level 3 | 第三级升级 |
级别配置说明¶
1. Level 0(起始通知)(必选)
- 触发时机:故障产生时立即通知(T=0);
- 通知对象:固定为当前值班规则中配置的值班人,不可额外添加其他人员;
- 通知方式:为每个通知对象单独勾选(邮件、短信、电话,可多选)。
2. Level 1~10(升级级别))(可选)
-
触发条件:需同时满足以下条件才会触发该级别:
-
故障持续时间已达到设定的等待时间(例如 T+20 分钟)。
-
故障等级在指定的范围内(如仅对 P0、P1 生效)。
-
故障状态为指定值(如 Open 或 Working)。
-
-
通知对象:可在原有通知对象基础上追加新的人员或团队。即 Level 1 的通知对象 = Level 0 通知对象 + Level 1 新增人员;
-
通知方式:为新增人员单独设置通知方式。
注意
高级别的故障等级和状态范围不得超出低级别已选的范围。例如 Level 0 适用于 P0/P1,则 Level 1 也只能选择 P0 或 P1 的子集(不能扩展到 P2)。
重复通知机制¶
在每个级别内,您可以选择是否开启重复通知:
-
关闭重复通知:该级别只发送一次通知,然后等待进入下一级别;
-
开启重复通知:按设定的频率(例如每 5 分钟)周期性地发送通知,直到故障状态变更或进入下一级别为止。
注意
重复间隔必须小于进入下一级别的等待时间,否则无法设置。
示例:
-
Level 1 等待时间:30 分钟
-
重复间隔:5 分钟
-
最终效果:在 T+5、T+10、T+15、T+20、T+25、T+30 分钟各发送一次通知。
注意
如果最后一个级别(如 Level 10)开启了重复通知,且故障始终未被处理,系统将无限重复发送通知,直到有人认领或解决。
跨值班交接的处理¶
如果故障的持续时间跨越了值班交接时间,后续的升级通知将转交给新的值班人,并按照新值班人的升级策略执行。
示例:
-
故障在 23:55 产生,此时值班人为 A。
-
升级策略中 Level 1 的等待时间为 15 分钟,并配置了每 5 分钟重复一次。
-
第一次重复通知在故障产生后 5 分钟(即 0:00)触发,此时值班人已切换为 B,因此该通知将发送给 B,且后续的升级通知(包括剩余的重复和下一级别)都将按照 B 的升级策略执行。
跨天后,系统会基于新值班人 B 的升级规则继续处理该故障。
注意
建议在配置升级策略时考虑跨天场景,确保故障在任何时段都能得到有效响应。
多升级策略去重¶
当同一故障同时匹配多个值班规则(从而匹配多个升级策略)时,系统会自动进行通知去重,确保同一个用户不会收到重复的通知。去重逻辑基于用户、故障和通知内容。
升级策略配置示例¶
场景:核心服务 P0 故障的升级策略
| 级别 | 等待时间 | 适用条件 | 通知对象 | 通知方式 |
|---|---|---|---|---|
| Level 0 | T+0 | 等级 = P0 | 当前值班人 A | 短信 + 邮件 |
| Level 1 | T+5 分钟 | 等级 = P0, 状态 = Open/Working | + 值班组长 B | B:电话 |
| Level 2 | T+15 分钟 | 等级 = P0, 状态 = Open/Working | + 部门经理 C | C:电话 |
| Level 3 | T+30 分钟 | 等级 = P0, 状态 = Open/Working | + CTO D | D:电话 + 短信 |
在此示例中:
- 故障产生时,立即通知当前值班人 A;
- 5 分钟后若故障未被处理,追加通知值班组长 B(此时通知对象为 A + B);
- 15 分钟后仍未处理,追加通知部门经理 C(通知对象为 A + B + C);
- 30 分钟后若依然未处理,追加通知 CTO D,且 Level 3 开启了重复通知(例如每 10 分钟一次),直至有人响应。
通知方式说明¶
系统支持三种通知渠道,您可以为每个通知对象单独勾选:
| 方式 | 说明 | 适用场景 |
|---|---|---|
| 邮件 | 发送邮件通知,内容包含故障详情和链接 | 非紧急故障、需要详细信息的场景 |
| 短信 | 发送短信通知,内容精简,仅包含关键信息和链接 | 需要及时知晓但无需立即电话响应的场景 |
| 电话 | IVR 语音电话,接通后可播放告警内容,并可能需要按键确认 | 紧急故障,确保信息必达,适合夜间或高优先级 |
前置条件
-
被通知人员必须在个人设置中配置对应的联系方式(邮箱、手机号),否则无法接收相应渠道的通知;
-
如果个人设置中额外配置了“值班电话”或“值班邮箱”,系统会优先使用这些专用联系方式进行通知,以提高可靠性和区分度。
默认值班¶
系统内置了一个“默认值班”,它是一种简化版的值班规则,适用于简单场景。其特点如下:
- 仅可配置值班人、值班人轮换和升级策略;
- 不可配置项时区(固定为空,跟随系统时区)、匹配标签/维度(不支持设置,默认为全局匹配);
- 默认值班会始终显示在值班列表中,不可删除。
规则限制¶
-
一个值班规则最多可设置 10 个升级级别(Level 0 + Level 1~10);
-
单次等待时间最大为 360 分钟(6 小时),超出无法保存;
-
高级别的故障等级和状态范围必须是低级别已选范围的子集。
配置检查清单
在保存值班规则前,建议逐项确认:
- Level 0 是否包含了当前值班人(默认已包含)?
- 每级等待时间是否合理?(考虑夜间响应可能需要更长时间)
- 最终级别是否包含了“无论如何都要打通”的联系人?
- 如果开启了重复通知,重复间隔是否小于下一级的等待时间?
- 所有通知对象是否已配置对应的联系方式(尤其是电话)?
- 跨天场景下,升级策略的连续性是否满足要求?
后续步骤¶
配置好值班规则后,您就可以在故障列表中看到故障自动关联的值班信息。当故障产生时,系统将按照您设定的规则自动通知相应人员,并在超时后执行升级策略,确保每一个故障都得到及时响应。



