跳转至

未恢复事件


未恢复事件查看器集中展示当前工作空间内所有处于告警级别的事件记录,帮助用户全面理解告警事件的上下文,加速对事件的了解和认知,同时通过关联监控器、告警策略等有效减轻警报疲劳。

未恢复事件数据源通过查询事件数据,以 df_fault_id 作为唯一标识进行聚合,并展示最近的数据结果。您可借助查看器这一可视化工具直观了解从事件等级到触发阈值基线的一系列关键数据点,从事件等级、持续时长、告警通知、监控器到事件内容、历史触发趋势图,这些信息共同构成了一个全面的视图,帮助您能够从不同角度分析和理解事件,从而做出更加明智的响应决策。

核心逻辑

机制 说明
聚合维度 df_fault_id 作为唯一标识,将同一检测对象的多次事件触发聚合为一条记录展示。这意味着同一主机同一监控规则的多次异常触发,在未恢复事件列表中仅呈现为一条聚合记录,避免告警风暴。
时间窗口 默认展示最近 48 小时内 df_status != ok 的事件,您可按需选择时间查询范围
状态判定 该检测对象最近一次触发事件的等级作为当前展示等级。若事件等级在触发过程中发生变化(如从 warning 升级为 critical),列表中会显示最新等级

事件卡片

点击事件进入详情前,卡片以结构化方式呈现关键信息:

事件等级

基于监控器的触发条件配置会产生以下状态统计,等级严重程度依次递减:

  • 致命(fatal
  • 严重(critical
  • 重要(error
  • 警告(warning
  • 数据断档(nodata

在未恢复事件查看器中,每条事件的等级被定义为该检测对象最近一次触发事件时的等级。这意味着若同一故障先触发 warning 后升级为 critical,卡片展示等级为 critical

更多详情,可参考 事件等级说明

事件标题

未恢复事件查看器所显示的事件标题,直接来源于监控器规则配置时设定的标题,它代表了该检测对象在最后一次触发事件时所用的标题。标题通常包含关键变量替换,如主机名、指标值等,便于快速识别问题对象。

持续时长

表示当前检测对象从第一次触发异常产生事件截止到当前时间控件的结束时间,如 5 分钟 (08/20 17:53:00 ~ 17:57:38)。该时长反映故障持续时间,是评估影响范围和紧急程度的重要依据。若时长超过预期恢复时间,建议优先处理或升级。

告警通知

当前检测对象最后一次触发事件的告警通知情况,反映该事件是否已触达相关人员。主要包含以下三种状态:

  • 静默:表示当前事件受静默规则影响,但未对外发送告警通知。此时事件仅记录在系统内,不会对外发送告警通知,适用于已知问题或维护窗口期;
  • 实际发送通知对象的标识:包含钉钉机器人、企业微信机器人、飞书机器人等,表示告警已成功推送至对应渠道。;
  • -:没有对外触发告警通知。可能原因包括监控器未配置通知、通知对象失效、或超出通知频率限制等。

监控器检测类型

即监控器类型,标识该事件由何种检测规则触发,如阈值检测、日志检测、突变检测等。通过检测类型可快速定位监控器配置入口,进行规则调整或临时禁用。

检测对象

在配置监控器规则时,若在检测指标处使用了 by 分组查询,则事件卡片会展示筛选条件,如 source:kodo-servicemap。这表示该事件是针对特定维度分组的检测结果,而非全局聚合。点击检测对象标签可快速筛选同维度其他事件。

事件内容

当前检测对象最后一次触发事件的事件内容,来源于配置监控器规则时预设的内容,它代表了该检测对象在最后一次触发事件时的事件内容。内容通常包含:

  • 触发时的具体指标值
  • 与阈值的对比结果
  • 预设的排查建议或处理指引
  • 变量替换后的完整描述

历史触发趋势图

该趋势通过 Window 函数进行展示,检测结果值历史趋势展示实际数据的 60 次检测。

基于当前未恢复事件的检测结果值展示历史事件异常趋势,配置的监控器检测规则内的触发阈值条件值被设定为一个清晰的参考线。系统会特别标记出当前检测对象最后一次触发事件的检测结果,并且通过趋势图中的竖线,您可以迅速定位到事件触发的具体时间点。同时,该检测结果的对应检测区间也被展示出来,为您提供了一个直观的分析工具,以便于评估事件的发展过程及其影响。

管理事件卡片

显示项

未恢复事件列表支持以下显示样式,适应不同场景的信息密度需求:

  • 标准:显示事件标题、检测维度和事件内容
  • 扩展:除标准信息外,还显示未恢复事件的检测结果值历史趋势
  • 列表:以列表形式展示事件数据,字段可自定义。

静默事件

在大规模监控场景中,为了避免手动处理大量同类告警带来的繁琐步骤、耗时和易遗漏问题,可直接在当前页面对规则进行“静默”。静默期间,事件仍会继续检测和记录,但不再发送告警通知,适用于以下场景:

  • 已知问题正在修复中,需临时降噪
  • 计划内维护窗口,预期内异常
  • 非生产环境或低优先级系统的批量告警

静默操作步骤

  1. hover 在单条事件,在右侧点击静默
  2. 选择静默时间类型
  3. 确定。

静默时间类型

支持自定义静默的开始时间和结束时间,或快速设定为 1 小时、6 小时、12 小时、1 天、1 周。


  1. 选择静默的开始时间和持续时长;
  2. 选择从某一时刻开始后的静默周期;
  3. 选择静默的到期时间。可选择永远按照以上的时间重复或重复到某一个特定时刻。

恢复事件

事件状态为正常(df_sub_status = ok)时即为恢复事件。恢复意味着该检测对象已不再满足监控器的异常触发条件,或已被人工确认为已解决。

  • 单条恢复:可在规则右侧按钮处或前往监控器设置,或手动恢复。

  • 批量恢复:点击“一键恢复全部”,即可恢复当前列表下的所有异常事件。

恢复事件分为四种类型:

名称
df_status 说明
恢复 ok 之前检测到“致命”“紧急”“重要”“警告”这四种异常事件,N 次检测内未再触发,则视为恢复。这是最常见的自动恢复类型,表示指标已回落至正常范围
数据断档恢复 ok 数据停止上报后重新上报,判断为恢复
数据断档视为恢复 ok 检测数据出现断档,视为正常状态
手动恢复 ok 用户手动点击恢复,支持单条/批量恢复

更多阅读

文档评价

文档内容是否对您有帮助? ×