故障列表¶
故障列表是观测云中集中管理并展示所有故障的统一页面,用于查看、认领和跟踪故障的处理进展。
故障列表视图¶
列表默认按故障触发时间倒序排列,每条故障展示以下核心信息:
- 标题:故障的简要描述,由监控器规则生成或处理人手动补充;
- 等级:故障的严重程度(如 P0、P1、P2、未知),由触发监控器时指定;
- 状态:当前处理阶段(Open、Working、Resolved、Closed);
- 处理人:当前认领该故障的用户或团队;
- 检测维度:故障关联的标签或维度信息(如
host:web-01、service:auth),帮助快速判断影响范围; - 持续时间:故障从触发至今的时长;
- 底栏信息:显示关联的值班规则、最近事件(如 “5 分钟前状态变更为 Working”)。
筛选与搜索故障¶
您可以通过多种方式快速找到目标故障:
- 快捷筛选栏:按故障标签、状态、等级、值班规则进行筛选。
- 全局搜索:支持关键词搜索故障标题,也可使用语法进行精确匹配,例如:
status:open:查找未处理的故障level:p0:查找 P0 级故障assignee:张三:查找处理人为张三的故障tag(service):auth:查找包含标签service:auth的故障
故障认领与处理¶
所有故障均由监控器在检测到异常时自动创建。故障初始状态为 Open,系统会根据您配置的值班规则立即通知对应人员。
-
认领故障:您可在故障列表或详情页主动认领故障,从而成为负责人,状态自动变为 Working,遵循“认领即处理”原则;
-
负责人变更:Working 状态下的故障,其他用户也可主动认领,负责人随之变更;
-
状态流转:
-
Open → Working:用户认领后自动切换。
-
Working → Resolved/Closed:处理人手动操作,表示故障已解决或关闭。
-
回滚:处理人可将 Working 状态的故障回滚至 Open,回滚后负责人清空,重新进入待分配流程。
-
-
故障重开:若已恢复的故障(Resolved)再次被同一监控器触发,系统将自动创建一条新的 Open 状态故障;
-
升级通知:若故障长时间未被认领或处理,将根据您设置的升级策略,自动通知更多或更高级别人员,确保告警必达。
更多阅读¶
您可能对以下内容感兴趣:
