故障中心¶
故障中心是观测云平台的核心功能模块,专用于管理由系统监控自动发现的异常事件(即故障)。它提供了一套标准化的处理流程,涵盖从故障发现、处理解决到事后复盘的全生命周期管理。
如何定义故障¶
在观测云中,“故障”指由您配置的监控器自动检测并生成的系统异常。当监控器发现指标异常、日志错误或应用性能下降时,即会触发创建。系统会智能合并相同问题的重复告警为单条记录,以此抑制告警风暴,帮助您聚焦于解决问题。
故障从何而来¶
故障的产生完全依赖于您预先配置的监控体系,是自动化监控的结果。这些规则持续检测基础设施、应用程序、日志等数据。当任何数据超出规则设定的正常范围(阈值),即被判定为“异常”,从而触发故障流程。
如何管理故障¶
所有故障事件都会汇聚到“故障中心”统一管理。在这里,您可以看到所有故障的列表,包括状态、等级、负责人等信息。点击任意故障,将进入其详情页。这是解决故障最重要的界面,因为它提供了:
-
完整上下文:系统自动关联并展示与该故障相关的全链路数据,包括性能指标、错误日志、调用链路、基础设施拓扑等;
-
最近 2 小时的影响范围可视化分析,帮助快速定位问题波及面;
-
协作时间线:所有状态变更、处理人交接、团队讨论和操作记录均被完整保存,形成可审计的处理时间线。
如何解决故障¶
故障的处理遵循一套清晰的规范流程:
1. 自动化通知与响应
系统根据预设的值班通知第一责任人。若未在设定时限内处理,则按升级策略自动通知后续人员或团队,形成多级响应保障。
2. 基于聚合信息的分析定位
处理工作在故障详情页进行。该页面集成了相关指标、日志、链路追踪及影响范围分析,提供了集中的分析环境。
3. 标准化的过程追踪
处置过程需按标准状态流转。所有操作与沟通均被系统自动记录为时间线,确保过程可追踪、权责可追溯。