跳转至

常见问题


事件查看与时间范围


“未恢复事件”默认只显示 48 小时内的,我想查看更早的未恢复事件怎么办?

页面右上角有时间控件,可以自由调整时间范围。


“所有事件”和“未恢复事件”两个标签页有什么区别?为什么都能筛选出未恢复的事件?

对比项 未恢复事件 所有事件
默认时间范围 最近 48 小时 通常更长(可配置)
默认筛选条件 df_status != ok
展示内容 仅异常状态事件 全部状态(正常/异常/恢复/数据断档)
用途 快速关注当前问题 完整历史查询和分析

关键区别:“未恢复事件”是快捷入口,自动帮您筛选好;“所有事件”需要手动加筛选条件,但灵活性更高。


时间控件调整后,我之前设置的筛选条件会重置吗?

不会重置。时间范围调整是独立的,您设置的筛选条件(事件等级、告警策略、监控器名称等)会保持不变,系统会在新的时间范围内应用这些筛选条件。


事件内容与变量


事件内容里的变量(如 {{df_dimension_tags}}{{Result}})显示为空或格式不对,怎么调试?

变量来源:事件内容中的变量在监控器的事件通知配置区域定义,系统根据实际监测数据替换。

常见空值原因

  1. DQL 查询未返回对应字段
  2. 变量名拼写错误(区分大小写)
  3. 检测维度标签为空

调试方法

  1. 查看事件详情的检测指标区域,确认原始查询结果
  2. 检查监控器的 DQL 查询语句是否正确

常用变量参考

  • {{Result}} - 检测值
  • {{df_dimension_tags}} - 检测维度标签JSON
  • {{df_status}} - 事件状态
  • {{df_monitor_name}} - 监控器名称
  • {{date}} - 事件产生时间戳

事件标题和事件内容有什么区别?通知时发送哪个?

  • 事件标题:显示在事件列表,也是告警通知的标题(邮件主题、钉钉消息标题等)
  • 事件内容:事件详情页展示的内容,也是默认的告警通知正文

自定义通知内容

监控器支持开启“自定义通知内容”开关,此时:

  • 事件内容仍保存在事件详情中
  • 但告警通知使用自定义模板发送
  • 适合需要针对不同通知渠道定制内容的场景

事件内容支持哪些模板函数?能把数字格式化成百分比吗?

目前明确支持的模板函数:

函数 作用 示例
to_datetime 时间戳转日期 {{ date \| to_datetime }}
to_status_human 状态转可读文本 {{ df_status \| to_status_human }}
to_fixed(n) 固定小数位 {{ Result \| to_fixed(2) }}
to_percent 转百分比 {{ Result \| to_percent }}
to_pretty_tags 美化标签输出 {{ df_dimension_tags \| to_pretty_tags }}

事件状态与恢复

事件恢复是自动的还是手动的?为什么有些事件一直显示未恢复?

自动恢复:当监控器检测到指标恢复正常时,会自动产生恢复事件,df_status 变为 ok

手动恢复:在事件列表或详情页可以手动恢复事件

常见未恢复原因

  1. 监控器配置问题:恢复条件未正确配置
  2. 数据断档事件:未配置恢复策略或数据未重新上报
  3. 检测逻辑问题:阈值设置导致无法自动判定恢复

监控器静默期间产生的事件会显示在事件列表中吗?状态是什么?

会显示在事件列表中,但:

  • 不会发送告警通知
  • 不会同步创建故障(如果配置了同步创建)
  • 事件状态正常记录(critical/warning等)

静默只是暂停通知发送,不影响事件本身的产生和记录。

数据断档事件


什么是数据断档事件?什么场景下需要开启?

数据断档是指监控器在检测周期内未查询到预期的数据。

配置位置:监控器的“数据断档事件”配置区域(部分监控器类型支持)

三种处理策略

  1. 不触发事件 - 静默处理
  2. 触发恢复事件 - 数据断档视为异常恢复
  3. 触发数据断档事件 - 产生专门的断档告警(可配置等级)

为什么有时候数据明明没上报,却没有触发数据断档事件?

观测云采用“边缘触发”机制判断数据断档:

上一轮查询我发现有 X,本轮查询查不到 X,那么 X 发生数据断档

关键限制

  • 首次检测无数据不会产生告警(系统不知道“本该有”什么)
  • 必须经历过“有数据”状态后,再次检测不到才会判定断档

排查建议

  1. 确认监控器已正常运行至少一个检测周期并查询到数据
  2. 检查"检测范围漂移"机制(实际检测时间范围会漂移1分钟)
  3. 查看监控器执行日志确认 DQL 查询是否成功

数据断档事件和数据恢复事件的产生逻辑是什么?

交替产生机制

  • 数据断档事件和数据恢复事件总是交替出现
  • 不会产生连续的数据断档事件
  • 也不会产生连续的数据恢复事件

判定流程

首次检测无数据 → 不告警
检测到数据 → 记录“有数据”状态
再次检测无数据 → 触发数据断档事件
数据重新上报 → 触发数据恢复事件
再次检测无数据 → 触发数据断档事件(新的)


事件关联与排查


事件详情页的“关联事件”是怎么关联的?为什么有时候是空的?

关联逻辑: - 基于相同的检测维度标签(如 hostservice 等) - 基于时间窗口(同一时间段内的相关事件)

关联为空的常见原因

  1. 该维度标签在其他事件中不存在
  2. 时间窗口内没有其他相关事件
  3. 当前事件类型不支持关联(部分监控器类型)

“关联 SLO” 显示为 0 是什么意思?什么时候会有数据?

  • 显示为0:表示该事件没有关联到任何 SLO 任务
  • 有数据的情况:仅当事件由 SLO 任务触发时,才会显示关联的 SLO 信息
  • 监控器触发的事件默认不关联 SLO

历史趋势图表中的“检测区间”虚线是什么意思?能调整时间范围吗?

  • 检测区间虚线:标记触发该次告警的具体检测时间窗口
  • 图表展示:显示该检测指标在更长时间范围内的走势

点击图表右上角的“获取图表查询”按钮,跳转到指标或日志查看器,在查看器中可以灵活调整时间范围进行更长期的趋势分析。

事件来源与字段


不同来源的事件(监控器、审计、OpenAPI)在字段上有什么区别?

不同 df_source 值对应不同额外字段:

df_source 来源 额外字段
monitor 监控器/智能监控/SLO 监控相关字段(检测指标、阈值等)
audit 审计事件 操作人、操作类型、变更详情等
user OpenAPI 写入 用户自定义字段

通过 OpenAPI 写入的自定义事件,和系统生成的事件在使用上有什么区别?

功能差异: - 自定义事件可以设置 df_statusdf_titledf_message 等字段 - 可以指定 df_dimension_tags 用于关联 - 不会像监控器事件那样自动关联仪表板 - 需要自行处理事件恢复逻辑(通过 API 调用恢复接口)

使用场景:外部系统对接、自定义业务告警、批量导入历史事件等。

审计事件


审计事件具体记录哪些操作?在哪里查看?

查看位置:管理 > 基本设置 > 安全 > 操作审计

一般记录范围

  • 添加/删除数据授权(跨工作空间授权)
  • 监控器、SLO、告警策略等配置的增删改
  • 工作空间成员权限变更

字段特点df_source = audit,包含操作人、操作时间、操作类型等审计专用字段。

常见问题排查


为什么事件详情显示的时间和实际故障发生时间对不上?

这是正常现象,原因有二:

  1. 计划触发时间 vs 实际执行时间

    • 事件显示的时间是监控器的计划触发时间(基于 Crontab 的规整时间)
    • 不是事件在系统中实际生成的时间
  2. 检测范围漂移

    • 实际检测的数据范围是:计划触发时间 - 检测范围 - 1分钟计划触发时间 - 1分钟
    • 因此故障数据的时间戳可能早于事件显示时间

排查建议:查看事件详情的“检测指标”区域,确认实际检测的数据时间范围。


在平台直接查询能看到故障数据,但监控器没产生事件,为什么?

常见原因:

  1. 数据落盘延迟:检测执行时故障数据尚未可被查询(监控器会自动漂移 1 分钟规避,但延迟超过 1 分钟则失效)
  2. DQL 查询失败:检测过程因查询失败中断
  3. 监控器静默:处于静默期不发送通知,但事件仍会产生(需检查事件列表)
  4. 阈值配置:实际检测值未达到触发阈值

事件数据能保留多久?如何导出或归档?

长期保存方案

  • 使用 Dataway Sink 功能将事件数据分流到外部存储
  • 通过 OpenAPI 定期拉取事件数据到本地存储
  • 使用数据转发功能转发至 Kafka、S3 等外部系统

文档评价

文档内容是否对您有帮助? ×