常见问题¶

事件查看与时间范围¶

“未恢复事件”默认只显示 48 小时内的，我想查看更早的未恢复事件怎么办？

页面右上角有时间控件，可以自由调整时间范围。

“所有事件”和“未恢复事件”两个标签页有什么区别？为什么都能筛选出未恢复的事件？

对比项	未恢复事件	所有事件
默认时间范围	最近 48 小时	通常更长（可配置）
默认筛选条件	`df_status != ok`	无
展示内容	仅异常状态事件	全部状态（正常/异常/恢复/数据断档）
用途	快速关注当前问题	完整历史查询和分析

关键区别：“未恢复事件”是快捷入口，自动帮您筛选好；“所有事件”需要手动加筛选条件，但灵活性更高。

时间控件调整后，我之前设置的筛选条件会重置吗？

不会重置。时间范围调整是独立的，您设置的筛选条件（事件等级、告警策略、监控器名称等）会保持不变，系统会在新的时间范围内应用这些筛选条件。

事件内容与变量¶

事件内容里的变量（如 {{df_dimension_tags}}、{{Result}}）显示为空或格式不对，怎么调试？

变量来源：事件内容中的变量在监控器的事件通知配置区域定义，系统根据实际监测数据替换。

常见空值原因：

DQL 查询未返回对应字段
变量名拼写错误（区分大小写）
检测维度标签为空

调试方法：

查看事件详情的检测指标区域，确认原始查询结果
检查监控器的 DQL 查询语句是否正确

常用变量参考：

{{Result}} - 检测值
{{df_dimension_tags}} - 检测维度标签JSON
{{df_status}} - 事件状态
{{df_monitor_name}} - 监控器名称
{{date}} - 事件产生时间戳

事件标题和事件内容有什么区别？通知时发送哪个？

事件标题：显示在事件列表，也是告警通知的标题（邮件主题、钉钉消息标题等）
事件内容：事件详情页展示的内容，也是默认的告警通知正文

自定义通知内容：

监控器支持开启“自定义通知内容”开关，此时：

事件内容仍保存在事件详情中
但告警通知使用自定义模板发送
适合需要针对不同通知渠道定制内容的场景

事件内容支持哪些模板函数？能把数字格式化成百分比吗？

目前明确支持的模板函数：

函数	作用	示例
`to_datetime`	时间戳转日期	`{{ date \\| to_datetime }}`
`to_status_human`	状态转可读文本	`{{ df_status \\| to_status_human }}`
`to_fixed(n)`	固定小数位	`{{ Result \\| to_fixed(2) }}`
`to_percent`	转百分比	`{{ Result \\| to_percent }}`
`to_pretty_tags`	美化标签输出	`{{ df_dimension_tags \\| to_pretty_tags }}`

事件状态与恢复¶

事件恢复是自动的还是手动的？为什么有些事件一直显示未恢复？

自动恢复：当监控器检测到指标恢复正常时，会自动产生恢复事件，df_status 变为 ok

手动恢复：在事件列表或详情页可以手动恢复事件

常见未恢复原因：

监控器配置问题：恢复条件未正确配置
数据断档事件：未配置恢复策略或数据未重新上报
检测逻辑问题：阈值设置导致无法自动判定恢复

监控器静默期间产生的事件会显示在事件列表中吗？状态是什么？

会显示在事件列表中，但：

不会发送告警通知
不会同步创建故障（如果配置了同步创建）
事件状态正常记录（critical/warning等）

静默只是暂停通知发送，不影响事件本身的产生和记录。

数据断档事件¶

什么是数据断档事件？什么场景下需要开启？

数据断档是指监控器在检测周期内未查询到预期的数据。

配置位置：监控器的“数据断档事件”配置区域（部分监控器类型支持）

三种处理策略：

不触发事件 - 静默处理
触发恢复事件 - 数据断档视为异常恢复
触发数据断档事件 - 产生专门的断档告警（可配置等级）

为什么有时候数据明明没上报，却没有触发数据断档事件？

观测云采用“边缘触发”机制判断数据断档：

上一轮查询我发现有 X，本轮查询查不到 X，那么 X 发生数据断档

关键限制：

首次检测无数据不会产生告警（系统不知道“本该有”什么）
必须经历过“有数据”状态后，再次检测不到才会判定断档

排查建议：

确认监控器已正常运行至少一个检测周期并查询到数据
检查"检测范围漂移"机制（实际检测时间范围会漂移1分钟）
查看监控器执行日志确认 DQL 查询是否成功

数据断档事件和数据恢复事件的产生逻辑是什么？

交替产生机制：

数据断档事件和数据恢复事件总是交替出现
不会产生连续的数据断档事件
也不会产生连续的数据恢复事件

判定流程：

首次检测无数据 → 不告警
↓
检测到数据 → 记录“有数据”状态
↓
再次检测无数据 → 触发数据断档事件
↓
数据重新上报 → 触发数据恢复事件
↓
再次检测无数据 → 触发数据断档事件（新的）

事件关联与排查¶

事件详情页的“关联事件”是怎么关联的？为什么有时候是空的？

关联逻辑： - 基于相同的检测维度标签（如 host、service 等） - 基于时间窗口（同一时间段内的相关事件）

关联为空的常见原因：

该维度标签在其他事件中不存在
时间窗口内没有其他相关事件
当前事件类型不支持关联（部分监控器类型）

“关联 SLO” 显示为 0 是什么意思？什么时候会有数据？

显示为0：表示该事件没有关联到任何 SLO 任务
有数据的情况：仅当事件由 SLO 任务触发时，才会显示关联的 SLO 信息
监控器触发的事件默认不关联 SLO

历史趋势图表中的“检测区间”虚线是什么意思？能调整时间范围吗？

检测区间虚线：标记触发该次告警的具体检测时间窗口
图表展示：显示该检测指标在更长时间范围内的走势

点击图表右上角的“获取图表查询”按钮，跳转到指标或日志查看器，在查看器中可以灵活调整时间范围进行更长期的趋势分析。

事件来源与字段¶

不同来源的事件（监控器、审计、OpenAPI）在字段上有什么区别？

不同 df_source 值对应不同额外字段：

df_source	来源	额外字段
`monitor`	监控器/智能监控/SLO	监控相关字段（检测指标、阈值等）
`audit`	审计事件	操作人、操作类型、变更详情等
`user`	OpenAPI 写入	用户自定义字段

通过 OpenAPI 写入的自定义事件，和系统生成的事件在使用上有什么区别？

功能差异： - 自定义事件可以设置 df_status、df_title、df_message 等字段 - 可以指定 df_dimension_tags 用于关联 - 不会像监控器事件那样自动关联仪表板 - 需要自行处理事件恢复逻辑（通过 API 调用恢复接口）

使用场景：外部系统对接、自定义业务告警、批量导入历史事件等。

审计事件¶

审计事件具体记录哪些操作？在哪里查看？

查看位置：管理 > 基本设置 > 安全 > 操作审计

一般记录范围：

添加/删除数据授权（跨工作空间授权）
监控器、SLO、告警策略等配置的增删改
工作空间成员权限变更

字段特点：df_source = audit，包含操作人、操作时间、操作类型等审计专用字段。

常见问题排查¶

为什么事件详情显示的时间和实际故障发生时间对不上？

这是正常现象，原因有二：

计划触发时间 vs 实际执行时间：
- 事件显示的时间是监控器的计划触发时间（基于 Crontab 的规整时间）
- 不是事件在系统中实际生成的时间
检测范围漂移：
- 实际检测的数据范围是：计划触发时间 - 检测范围 - 1分钟 到 计划触发时间 - 1分钟
- 因此故障数据的时间戳可能早于事件显示时间

排查建议：查看事件详情的“检测指标”区域，确认实际检测的数据时间范围。

在平台直接查询能看到故障数据，但监控器没产生事件，为什么？

常见原因：

数据落盘延迟：检测执行时故障数据尚未可被查询（监控器会自动漂移 1 分钟规避，但延迟超过 1 分钟则失效）
DQL 查询失败：检测过程因查询失败中断
监控器静默：处于静默期不发送通知，但事件仍会产生（需检查事件列表）
阈值配置：实际检测值未达到触发阈值

事件数据能保留多久？如何导出或归档？

长期保存方案：

使用 Dataway Sink 功能将事件数据分流到外部存储
通过 OpenAPI 定期拉取事件数据到本地存储
使用数据转发功能转发至 Kafka、S3 等外部系统