故障中心¶
故障中心提供完整的故障事件管理功能,覆盖从告警触发到解决复盘的端到端处理流程。
当您在观测云中配置的监控器检测到检测到指标异常、日志错误或应用性能下降等系统异常时,会自动生成故障事件,并将相同问题的重复告警合并为单条记录。
故障产生后,系统会根据预设的值班规则通知当前负责人员。如果故障未及时处理,将按照升级策略自动通知更多或更高级别成员或团队。
在处理环节,处理人可通过故障详情页获取完整的上下文信息:系统自动关联并展示与该故障相关的全链路数据,包括性能指标、错误日志、调用链路、基础设施拓扑等,并提供最近 2 小时的影响范围可视化分析。处理过程中,故障状态可按照标准流程流转(open → working → resloved → closed),所有状态变更、处理人交接、团队讨论和操作记录均被完整保存,形成可审计的处理时间线。
通过故障中心,团队能够建立标准化的故障处理流程,确保每个问题都有明确的负责人和清晰的处理进展,同时积累的处理数据也可用于后续的分析和改进。