常见问题¶
事件查看与时间范围¶
“未恢复事件”默认只显示 48 小时内的,我想查看更早的未恢复事件怎么办?
页面右上角有时间控件,可以自由调整时间范围。
“所有事件”和“未恢复事件”两个标签页有什么区别?为什么都能筛选出未恢复的事件?
| 对比项 | 未恢复事件 | 所有事件 |
|---|---|---|
| 默认时间范围 | 最近 48 小时 | 通常更长(可配置) |
| 默认筛选条件 | df_status != ok |
无 |
| 展示内容 | 仅异常状态事件 | 全部状态(正常/异常/恢复/数据断档) |
| 用途 | 快速关注当前问题 | 完整历史查询和分析 |
关键区别:“未恢复事件”是快捷入口,自动帮您筛选好;“所有事件”需要手动加筛选条件,但灵活性更高。
时间控件调整后,我之前设置的筛选条件会重置吗?
不会重置。时间范围调整是独立的,您设置的筛选条件(事件等级、告警策略、监控器名称等)会保持不变,系统会在新的时间范围内应用这些筛选条件。
事件内容与变量¶
事件内容里的变量(如 {{df_dimension_tags}}、{{Result}})显示为空或格式不对,怎么调试?
变量来源:事件内容中的变量在监控器的事件通知配置区域定义,系统根据实际监测数据替换。
常见空值原因:
- DQL 查询未返回对应字段
- 变量名拼写错误(区分大小写)
- 检测维度标签为空
调试方法:
- 查看事件详情的检测指标区域,确认原始查询结果
- 检查监控器的 DQL 查询语句是否正确
常用变量参考:
{{Result}}- 检测值{{df_dimension_tags}}- 检测维度标签JSON{{df_status}}- 事件状态{{df_monitor_name}}- 监控器名称{{date}}- 事件产生时间戳
事件标题和事件内容有什么区别?通知时发送哪个?
- 事件标题:显示在事件列表,也是告警通知的标题(邮件主题、钉钉消息标题等)
- 事件内容:事件详情页展示的内容,也是默认的告警通知正文
自定义通知内容:
监控器支持开启“自定义通知内容”开关,此时:
- 事件内容仍保存在事件详情中
- 但告警通知使用自定义模板发送
- 适合需要针对不同通知渠道定制内容的场景
事件内容支持哪些模板函数?能把数字格式化成百分比吗?
目前明确支持的模板函数:
| 函数 | 作用 | 示例 |
|---|---|---|
to_datetime |
时间戳转日期 | {{ date \| to_datetime }} |
to_status_human |
状态转可读文本 | {{ df_status \| to_status_human }} |
to_fixed(n) |
固定小数位 | {{ Result \| to_fixed(2) }} |
to_percent |
转百分比 | {{ Result \| to_percent }} |
to_pretty_tags |
美化标签输出 | {{ df_dimension_tags \| to_pretty_tags }} |
事件状态与恢复¶
事件恢复是自动的还是手动的?为什么有些事件一直显示未恢复?
自动恢复:当监控器检测到指标恢复正常时,会自动产生恢复事件,df_status 变为 ok
手动恢复:在事件列表或详情页可以手动恢复事件
常见未恢复原因:
- 监控器配置问题:恢复条件未正确配置
- 数据断档事件:未配置恢复策略或数据未重新上报
- 检测逻辑问题:阈值设置导致无法自动判定恢复
监控器静默期间产生的事件会显示在事件列表中吗?状态是什么?
会显示在事件列表中,但:
- 不会发送告警通知
- 不会同步创建故障(如果配置了同步创建)
- 事件状态正常记录(critical/warning等)
静默只是暂停通知发送,不影响事件本身的产生和记录。
数据断档事件¶
什么是数据断档事件?什么场景下需要开启?
数据断档是指监控器在检测周期内未查询到预期的数据。
配置位置:监控器的“数据断档事件”配置区域(部分监控器类型支持)
三种处理策略:
- 不触发事件 - 静默处理
- 触发恢复事件 - 数据断档视为异常恢复
- 触发数据断档事件 - 产生专门的断档告警(可配置等级)
为什么有时候数据明明没上报,却没有触发数据断档事件?
观测云采用“边缘触发”机制判断数据断档:
上一轮查询我发现有 X,本轮查询查不到 X,那么 X 发生数据断档
关键限制:
- 首次检测无数据不会产生告警(系统不知道“本该有”什么)
- 必须经历过“有数据”状态后,再次检测不到才会判定断档
排查建议:
- 确认监控器已正常运行至少一个检测周期并查询到数据
- 检查"检测范围漂移"机制(实际检测时间范围会漂移1分钟)
- 查看监控器执行日志确认 DQL 查询是否成功
数据断档事件和数据恢复事件的产生逻辑是什么?
交替产生机制:
- 数据断档事件和数据恢复事件总是交替出现
- 不会产生连续的数据断档事件
- 也不会产生连续的数据恢复事件
判定流程:
事件关联与排查¶
事件详情页的“关联事件”是怎么关联的?为什么有时候是空的?
关联逻辑:
- 基于相同的检测维度标签(如 host、service 等)
- 基于时间窗口(同一时间段内的相关事件)
关联为空的常见原因:
- 该维度标签在其他事件中不存在
- 时间窗口内没有其他相关事件
- 当前事件类型不支持关联(部分监控器类型)
“关联 SLO” 显示为 0 是什么意思?什么时候会有数据?
- 显示为0:表示该事件没有关联到任何 SLO 任务
- 有数据的情况:仅当事件由 SLO 任务触发时,才会显示关联的 SLO 信息
- 监控器触发的事件默认不关联 SLO
历史趋势图表中的“检测区间”虚线是什么意思?能调整时间范围吗?
- 检测区间虚线:标记触发该次告警的具体检测时间窗口
- 图表展示:显示该检测指标在更长时间范围内的走势
点击图表右上角的“获取图表查询”按钮,跳转到指标或日志查看器,在查看器中可以灵活调整时间范围进行更长期的趋势分析。
事件来源与字段¶
不同来源的事件(监控器、审计、OpenAPI)在字段上有什么区别?
不同 df_source 值对应不同额外字段:
| df_source | 来源 | 额外字段 |
|---|---|---|
monitor |
监控器/智能监控/SLO | 监控相关字段(检测指标、阈值等) |
audit |
审计事件 | 操作人、操作类型、变更详情等 |
user |
OpenAPI 写入 | 用户自定义字段 |
通过 OpenAPI 写入的自定义事件,和系统生成的事件在使用上有什么区别?
功能差异:
- 自定义事件可以设置 df_status、df_title、df_message 等字段
- 可以指定 df_dimension_tags 用于关联
- 不会像监控器事件那样自动关联仪表板
- 需要自行处理事件恢复逻辑(通过 API 调用恢复接口)
使用场景:外部系统对接、自定义业务告警、批量导入历史事件等。
审计事件¶
审计事件具体记录哪些操作?在哪里查看?
查看位置:管理 > 基本设置 > 安全 > 操作审计
一般记录范围:
- 添加/删除数据授权(跨工作空间授权)
- 监控器、SLO、告警策略等配置的增删改
- 工作空间成员权限变更
字段特点:df_source = audit,包含操作人、操作时间、操作类型等审计专用字段。
常见问题排查¶
为什么事件详情显示的时间和实际故障发生时间对不上?
这是正常现象,原因有二:
-
计划触发时间 vs 实际执行时间:
- 事件显示的时间是监控器的计划触发时间(基于 Crontab 的规整时间)
- 不是事件在系统中实际生成的时间
-
检测范围漂移:
- 实际检测的数据范围是:
计划触发时间 - 检测范围 - 1分钟到计划触发时间 - 1分钟 - 因此故障数据的时间戳可能早于事件显示时间
- 实际检测的数据范围是:
排查建议:查看事件详情的“检测指标”区域,确认实际检测的数据时间范围。
在平台直接查询能看到故障数据,但监控器没产生事件,为什么?
常见原因:
- 数据落盘延迟:检测执行时故障数据尚未可被查询(监控器会自动漂移 1 分钟规避,但延迟超过 1 分钟则失效)
- DQL 查询失败:检测过程因查询失败中断
- 监控器静默:处于静默期不发送通知,但事件仍会产生(需检查事件列表)
- 阈值配置:实际检测值未达到触发阈值
事件数据能保留多久?如何导出或归档?
长期保存方案:
- 使用 Dataway Sink 功能将事件数据分流到外部存储
- 通过 OpenAPI 定期拉取事件数据到本地存储
- 使用数据转发功能转发至 Kafka、S3 等外部系统