跳转至

故障列表


故障列表是观测云中集中管理并展示所有故障的统一页面,用于查看、认领和跟踪故障的处理进展。

故障列表视图

列表默认按故障触发时间倒序排列,每条故障展示以下核心信息:

  • 标题:故障的简要描述,由监控器规则生成或处理人手动补充;
  • 等级:故障的严重程度(如 P0、P1、P2、未知),由触发监控器时指定;
  • 状态:当前处理阶段(Open、Working、Resolved、Closed);
  • 处理人:当前认领该故障的用户或团队;
  • 检测维度:故障关联的标签或维度信息(如 host:web-01service:auth),帮助快速判断影响范围;
  • 持续时间:故障从触发至今的时长;
  • 底栏信息:显示关联的值班规则、最近事件(如 “5 分钟前状态变更为 Working”)。

筛选与搜索故障

您可以通过多种方式快速找到目标故障:

  • 快捷筛选栏:按故障标签、状态、等级、值班规则进行筛选。
  • 全局搜索:支持关键词搜索故障标题,也可使用语法进行精确匹配,例如:
    • status:open:查找未处理的故障
    • level:p0:查找 P0 级故障
    • assignee:张三:查找处理人为张三的故障
    • tag(service):auth:查找包含标签 service:auth 的故障

故障认领与处理

所有故障均由监控器在检测到异常时自动创建。故障初始状态为 Open,系统会根据您配置的值班规则立即通知对应人员。

  • 认领故障:您可在故障列表或详情页主动认领故障,从而成为负责人,状态自动变为 Working,遵循“认领即处理”原则;

  • 负责人变更:Working 状态下的故障,其他用户也可主动认领,负责人随之变更;

  • 状态流转:

    • Open → Working:用户认领后自动切换。

    • Working → Resolved/Closed:处理人手动操作,表示故障已解决或关闭。

    • 回滚:处理人可将 Working 状态的故障回滚至 Open,回滚后负责人清空,重新进入待分配流程。

  • 故障重开:若已恢复的故障(Resolved)再次被同一监控器触发,系统将自动创建一条新的 Open 状态故障;

  • 升级通知:若故障长时间未被认领或处理,将根据您设置的升级策略,自动通知更多或更高级别人员,确保告警必达。

更多阅读

您可能对以下内容感兴趣:

文档评价

文档内容是否对您有帮助? ×