跳转至

值班


值班功能帮助团队建立 7×24 小时的故障响应机制,确保每个故障都有明确的责任人,并在超时未处理时自动升级,实现“告警必达”。

核心概念

值班规则

值班规则定义了什么时间负责哪类故障。每条规则包含以下要素:

  • 值班人:成员、团队或通知对象;
  • 时间段:值班的生效时间范围(支持时区设置);
  • 匹配标签/维度:决定哪些故障会路由到此规则;
  • 升级策略:超时未处理时的通知升级规则。

升级策略

升级策略是附加在值班规则上的一套多级通知机制。当故障在指定时间内未被认领或解决时,系统会按照预设的级别逐级扩大通知范围,确保故障不被遗漏。

匹配标签逻辑

故障根据携带的标签自动匹配值班规则。匹配规则支持:

  • AND:多个标签需同时满足(全匹配)
  • OR:多个标签满足其一即可(部分匹配)
  • 通配符:key:value* 支持前缀匹配

示例:

故障标签:{service:payment, env:prod, team:backend}

  • 值班规则 A:标签 service:payment AND env:prod → 匹配 ✓
  • 值班规则 B:标签 team:frontend → 不匹配 ✗
  • 值班规则 C:无标签(全局)→ 匹配 ✓(兜底)
注意

若不设置任何匹配标签,该值班规则视为“全局匹配”,会接收所有未被其他规则匹配的故障。

值班日历

值班日历提供可视化的排班视图,方便快速了解当前及未来的值班安排。

  • 默认视图:进入值班页面后,默认显示“我的值班”。右侧日历高亮显示当前用户参与的所有值班排班,左侧列表列出所有包含当前用户的值班规则;

  • 全部值班:点击“全部值班”后,右侧日历展示全体成员的值班排班,左侧列表列出所有值班规则;

  • 默认值班:系统内置的“默认值班”会始终显示在值班列表中,不可删除或隐藏;

  • 查看详情:点击日历上的色块或成员名称,展示该值班的详细信息,包括关联的值班规则、升级策略以及具体值班时间段。左上角支持切换时区和日期查看历史或未来排班。

值班管理

“值班管理”页面以列表的形式集中展示所有值班规则,每条规则列出值班时区、执行周期、值班人、匹配标签及升级策略等关键信息。列表中包含系统默认值班与自定义的值班规则,点击任意条目即可进入其详情页进行深度配置。

为确保故障通知能精准触达且责任闭环,值班策略的配置核心在于建立以下两层保障机制:

  1. 明确“谁在何时负责”:通过设定值班人、生效时段并开启通知轮换(支持按天、周等周期自动交接),系统实现了责任的清晰排班与自动流转,确保任何时间都有明确的“第一响应人”;

  2. 预设升级路径(“若无响应如何上报”):通过配置升级策略,构建一条 “T+N 分钟”的逐级通知时间轴。当故障在设定时间内无人处理时,系统会按照此规则,自动将告警通知给其他层级的成员或更广的团队,确保关键故障必达。

新建值班规则

创建一条值班规则需要完成以下配置步骤。

基础信息

  1. 输入值班名称;
  2. 选择值班所依据的时区。
  3. 选择该值班覆盖的时间段,通过设置生效时间(包含开始时间和结束时间),精确化当前值班的有效期。

匹配标签/维度(可选)

此部分决定哪些故障会由本规则处理。若不添加任何标签/维度,则该规则为全局匹配。

  1. 匹配标签:

    • 从下拉列表中选择已有标签。
    • 支持直接输入新标签并快速创建,或直接前往“全局标签”进行管理。
  2. 匹配维度:

    • 可选择检测维度(如 servicehost),并设置具体的匹配值;

    • 支持逻辑关系:AND(全匹配,需满足所有条件)或 OR(部分匹配,满足任一条件即可),默认为 AND。

    • 值支持通配符,格式为 key:value*,例如 service:auth* 可匹配 auth-apiauth-service 等。

值班人设置

  1. 选择值班人:可以是一个或多个成员,也可以选择整个团队;
  2. 开启轮换:如果需要轮流值班,可开启轮换功能。设置轮换周期(例如每天、每周、每月),系统将按照成员列表顺序自动循环排班,并在右侧日历中直观展示排班效果。

轮换示例:

  • 开启轮换前:

  • 开启轮换后:

注意

如果当前规则未配置任何值班人,则无法添加升级策略

配置升级策略

升级策略确保故障在超时无人处理时,自动将通知范围扩大到更多人或更高级别(❗️升级策略是值班规则的核心,强烈建议配置)。

时间轴机制(T+N)

所有时间点的计算均以故障产生时刻为基准(记为 T=0)。系统按照预设的时间间隔依次触发各级通知:

触发时刻 级别 说明
T+0 Level 0 故障产生时立即通知(初始)
T+5 分钟 Level 1 第一级升级
T+15 分钟 Level 2 第二级升级
T+30 分钟 Level 3 第三级升级

级别配置说明

1. Level 0(起始通知)(必选)

  • 触发时机:故障产生时立即通知(T=0);
  • 通知对象:固定为当前值班规则中配置的值班人,不可额外添加其他人员;
  • 通知方式:为每个通知对象单独勾选(邮件、短信、电话,可多选)。

2. Level 1~10(升级级别))(可选)

  • 触发条件:需同时满足以下条件才会触发该级别:

    • 故障持续时间已达到设定的等待时间(例如 T+20 分钟)。

    • 故障等级在指定的范围内(如仅对 P0、P1 生效)。

    • 故障状态为指定值(如 Open 或 Working)。

  • 通知对象:可在原有通知对象基础上追加新的人员或团队。即 Level 1 的通知对象 = Level 0 通知对象 + Level 1 新增人员;

  • 通知方式:为新增人员单独设置通知方式。

注意

高级别的故障等级和状态范围不得超出低级别已选的范围。例如 Level 0 适用于 P0/P1,则 Level 1 也只能选择 P0 或 P1 的子集(不能扩展到 P2)。

重复通知机制

在每个级别内,您可以选择是否开启重复通知:

  • 关闭重复通知:该级别只发送一次通知,然后等待进入下一级别;

  • 开启重复通知:按设定的频率(例如每 5 分钟)周期性地发送通知,直到故障状态变更或进入下一级别为止。

注意

重复间隔必须小于进入下一级别的等待时间,否则无法设置。

示例:

  • Level 1 等待时间:30 分钟

  • 重复间隔:5 分钟

  • 最终效果:在 T+5、T+10、T+15、T+20、T+25、T+30 分钟各发送一次通知。

注意

如果最后一个级别(如 Level 10)开启了重复通知,且故障始终未被处理,系统将无限重复发送通知,直到有人认领或解决。

跨值班交接的处理

如果故障的持续时间跨越了值班交接时间,后续的升级通知将转交给新的值班人,并按照新值班人的升级策略执行。

示例:

  • 故障在 23:55 产生,此时值班人为 A。

  • 升级策略中 Level 1 的等待时间为 15 分钟,并配置了每 5 分钟重复一次。

  • 第一次重复通知在故障产生后 5 分钟(即 0:00)触发,此时值班人已切换为 B,因此该通知将发送给 B,且后续的升级通知(包括剩余的重复和下一级别)都将按照 B 的升级策略执行。

跨天后,系统会基于新值班人 B 的升级规则继续处理该故障。

注意

建议在配置升级策略时考虑跨天场景,确保故障在任何时段都能得到有效响应。

多升级策略去重

当同一故障同时匹配多个值班规则(从而匹配多个升级策略)时,系统会自动进行通知去重,确保同一个用户不会收到重复的通知。去重逻辑基于用户、故障和通知内容。

升级策略配置示例

场景:核心服务 P0 故障的升级策略

级别 等待时间 适用条件 通知对象 通知方式
Level 0 T+0 等级 = P0 当前值班人 A 短信 + 邮件
Level 1 T+5 分钟 等级 = P0, 状态 = Open/Working + 值班组长 B B:电话
Level 2 T+15 分钟 等级 = P0, 状态 = Open/Working + 部门经理 C C:电话
Level 3 T+30 分钟 等级 = P0, 状态 = Open/Working + CTO D D:电话 + 短信

在此示例中:

  • 故障产生时,立即通知当前值班人 A;
  • 5 分钟后若故障未被处理,追加通知值班组长 B(此时通知对象为 A + B);
  • 15 分钟后仍未处理,追加通知部门经理 C(通知对象为 A + B + C);
  • 30 分钟后若依然未处理,追加通知 CTO D,且 Level 3 开启了重复通知(例如每 10 分钟一次),直至有人响应。

通知方式说明

系统支持三种通知渠道,您可以为每个通知对象单独勾选:

方式 说明 适用场景
邮件 发送邮件通知,内容包含故障详情和链接 非紧急故障、需要详细信息的场景
短信 发送短信通知,内容精简,仅包含关键信息和链接 需要及时知晓但无需立即电话响应的场景
电话 IVR 语音电话,接通后可播放告警内容,并可能需要按键确认 紧急故障,确保信息必达,适合夜间或高优先级
前置条件
  1. 被通知人员必须在个人设置中配置对应的联系方式(邮箱、手机号),否则无法接收相应渠道的通知;

  2. 如果个人设置中额外配置了“值班电话”或“值班邮箱”,系统会优先使用这些专用联系方式进行通知,以提高可靠性和区分度。

默认值班

系统内置了一个“默认值班”,它是一种简化版的值班规则,适用于简单场景。其特点如下:

  • 仅可配置值班人、值班人轮换和升级策略;
  • 不可配置项时区(固定为空,跟随系统时区)、匹配标签/维度(不支持设置,默认为全局匹配);
  • 默认值班会始终显示在值班列表中,不可删除。

规则限制

  1. 一个值班规则最多可设置 10 个升级级别(Level 0 + Level 1~10);

  2. 单次等待时间最大为 360 分钟(6 小时),超出无法保存;

  3. 高级别的故障等级和状态范围必须是低级别已选范围的子集。

配置检查清单

在保存值班规则前,建议逐项确认:

  • Level 0 是否包含了当前值班人(默认已包含)?
  • 每级等待时间是否合理?(考虑夜间响应可能需要更长时间)
  • 最终级别是否包含了“无论如何都要打通”的联系人?
  • 如果开启了重复通知,重复间隔是否小于下一级的等待时间?
  • 所有通知对象是否已配置对应的联系方式(尤其是电话)?
  • 跨天场景下,升级策略的连续性是否满足要求?

后续步骤

配置好值班规则后,您就可以在故障列表中看到故障自动关联的值班信息。当故障产生时,系统将按照您设定的规则自动通知相应人员,并在超时后执行升级策略,确保每一个故障都得到及时响应。

文档评价

文档内容是否对您有帮助? ×