故障详情页¶
故障详情页是用于集中查看和处理单个故障的完整页面,您可以在这里了解故障详情、进行状态操作、分析关联数据,并与团队协作。
顶部概览¶
故障详情页顶部展示故障的核心信息,包括:
- 故障等级:如 P0、P1,由触发监控器时指定,不可修改;
- 状态与时间:当前状态(Open/Working/Resolved/Closed)及其首次出发时间、故障总持续时间。
- 标题:故障的简要描述;
- 处理人:显示当前处理人。您可在此处手动指定或更改处理人(成员/团队)。
状态流转¶
-
状态切换:仅当前处理人可以下拉更改故障状态。状态变更会实时更新并记录在操作时间线中;
-
进度节点:页面右侧或顶部会以时间线形式展示状态变更关键节点;
-
回滚操作:处理人可将 Working 状态的故障回滚至 Open,回滚后处理人置空。
休假处理机制¶
如果您已认领故障但需要休假:
- 进入账号设置 > 状态 > 选择“休假中”;
- 系统将不再向你发送该故障的通知;
- 建议先将故障交接给其他用户,或确保升级策略已配置后续通知人。
故障详情¶
进入详情页时,默认展示“故障详情 tab” 页。
错误分布图¶
展示最近 1 小时该故障维度的错误分布柱状图。点击柱子可携带当前筛选条件跳转至日志或链路查看器进一步分析。
异常描述¶
异常描述区域集中展示了故障产生的原始信息:
-
检测维度:显示故障关联的检测维度,例如 host:192.168.1.1 或 service:auth,快速定位受影响的对象;
-
来源:标明触发此故障的具体监控器或智能监控规则,方便追溯告警来源;
-
事件内容:展示原始的告警内容,通常是监控器检测到异常时记录的具体信息,如日志原文或指标值;
-
检测指标:显示触发条件的 DQL 查询语句,您可以直接参考该语句了解检测逻辑;
-
描述:您可在此处手动输入文字,对故障进行补充说明,便于团队理解;
-
补充信息:系统或用户添加的额外上下文,如关联的变更记录、工单链接等。
操作记录¶
在“操作记录”入口,可查看该故障的完整处理轨迹。系统会按时间倒序清晰展示包括故障触发、状态变更、等级调整、负责人交接以及升级通知执行在内的所有关键操作,帮助随时掌握最新进展并追溯完整处理过程。
协作记录¶
您可以在当前详情页通过页面下方的评论功能进行团队协作,支持添加文字、链接或上传附件。
所有协作内容将统一汇总至协作记录板块,系统会自动记录包括故障触发、状态变更、操作记录、处理人调整及升级通知在内的完整操作日志,形成清晰的审计线索,便于后续跟踪与复盘。
关联事件¶
在故障详情页的“关联事件”标签页中,系统将集中展示与该故障相关的所有监控事件。这些事件基于相同的检测维度自动关联而来,默认显示故障发生前后最近 2 小时内的数据。
您可以在此查看:
- 事件的发生时间、来源与具体内容
- 事件所关联的检测指标与描述信息
- 事件的分布情况(通过时间柱状图直观呈现)
点击任一事件或分布图中的时间区间,可携带当前筛选条件跳转至对应分析页面,进一步查看详细日志、指标趋势或链路信息,辅助您定位故障根因或评估影响范围。
关联数据分析¶
根据故障的检测维度(如 service、host、app_name),系统会自动加载对应的分析工具,无需手动跳转:
- 若检测维度包含
service:展示关联的链路追踪、服务拓扑、关联日志、分析看板等; - 若检测维度包含
host:展示关联的指标、日志、进程、容器、网络等内置视图; - 若检测维度包含
app_name:展示关联的用户访问错误、分析看板(根据应用类型不同); - 其他维度:根据实际情况展示相应的内置视图。
所有数据视图默认聚焦故障发生前后最近 2 小时,您可通过分布图快速了解影响情况,并可点击跳转至对应页面进行深入分析。
更多阅读¶
您可能对以下内容感兴趣:






