跳转至

故障详情页


故障详情页是用于集中查看和处理单个故障的完整页面,您可以在这里了解故障详情、进行状态操作、分析关联数据,并与团队协作。

顶部概览

故障详情页顶部展示故障的核心信息,包括:

  • 故障等级:如 P0、P1,由触发监控器时指定,不可修改;
  • 状态与时间:当前状态(Open/Working/Resolved/Closed)及其首次出发时间、故障总持续时间。
  • 标题:故障的简要描述;
  • 处理人:显示当前处理人。您可在此处手动指定或更改处理人(成员/团队)。

状态流转

  • 状态切换:仅当前处理人可以下拉更改故障状态。状态变更会实时更新并记录在操作时间线中;

  • 进度节点:页面右侧或顶部会以时间线形式展示状态变更关键节点;

  • 回滚操作:处理人可将 Working 状态的故障回滚至 Open,回滚后处理人置空。

休假处理机制

如果您已认领故障但需要休假:

  1. 进入账号设置 > 状态 > 选择“休假中”;
  2. 系统将不再向你发送该故障的通知;
  3. 建议先将故障交接给其他用户,或确保升级策略已配置后续通知人。

故障详情

进入详情页时,默认展示“故障详情 tab” 页。

错误分布图

展示最近 1 小时该故障维度的错误分布柱状图。点击柱子可携带当前筛选条件跳转至日志或链路查看器进一步分析。

异常描述

异常描述区域集中展示了故障产生的原始信息:

  • 检测维度:显示故障关联的检测维度,例如 host:192.168.1.1 或 service:auth,快速定位受影响的对象;

  • 来源:标明触发此故障的具体监控器或智能监控规则,方便追溯告警来源;

  • 事件内容:展示原始的告警内容,通常是监控器检测到异常时记录的具体信息,如日志原文或指标值;

  • 检测指标:显示触发条件的 DQL 查询语句,您可以直接参考该语句了解检测逻辑;

  • 描述:您可在此处手动输入文字,对故障进行补充说明,便于团队理解;

  • 补充信息:系统或用户添加的额外上下文,如关联的变更记录、工单链接等。

操作记录

在“操作记录”入口,可查看该故障的完整处理轨迹。系统会按时间倒序清晰展示包括故障触发、状态变更、等级调整、负责人交接以及升级通知执行在内的所有关键操作,帮助随时掌握最新进展并追溯完整处理过程。

协作记录

您可以在当前详情页通过页面下方的评论功能进行团队协作,支持添加文字、链接或上传附件。

所有协作内容将统一汇总至协作记录板块,系统会自动记录包括故障触发、状态变更、操作记录、处理人调整及升级通知在内的完整操作日志,形成清晰的审计线索,便于后续跟踪与复盘。

关联事件

在故障详情页的“关联事件”标签页中,系统将集中展示与该故障相关的所有监控事件。这些事件基于相同的检测维度自动关联而来,默认显示故障发生前后最近 2 小时内的数据。

您可以在此查看:

  • 事件的发生时间、来源与具体内容
  • 事件所关联的检测指标与描述信息
  • 事件的分布情况(通过时间柱状图直观呈现)

点击任一事件或分布图中的时间区间,可携带当前筛选条件跳转至对应分析页面,进一步查看详细日志、指标趋势或链路信息,辅助您定位故障根因或评估影响范围。

关联数据分析

根据故障的检测维度(如 servicehostapp_name),系统会自动加载对应的分析工具,无需手动跳转:

  • 若检测维度包含 service:展示关联的链路追踪服务拓扑关联日志分析看板等;
  • 若检测维度包含 host:展示关联的指标日志进程容器网络等内置视图;
  • 若检测维度包含 app_name:展示关联的用户访问错误分析看板(根据应用类型不同);
  • 其他维度:根据实际情况展示相应的内置视图。

所有数据视图默认聚焦故障发生前后最近 2 小时,您可通过分布图快速了解影响情况,并可点击跳转至对应页面进行深入分析。

更多阅读

您可能对以下内容感兴趣:

文档评价

文档内容是否对您有帮助? ×