基础设施存活检测 V2¶

当前文档定位

本文档为检测规则配置流程中的第二步。配置完成后，请返回主文档继续第三步：事件通知。

数据范围：对象（O）。用于监控基础设施中关键对象（如主机、容器、Pod 等）数据上报的稳定性。通过设置检测条件和告警级别，及时发现并处理异常，确保基础设施稳定运行。

检测配置¶

设置执行检测的时间周期。

注意

由于对象数据上报每 5 分钟更新一次，检测频率应大于 5 分钟且小于 1 天，以避免误报或检测延迟。

设置每次检测查询的数据时间范围（需 ≥ 检测频率）。

基于基础设施对象数据，监控其数据上报状态。

配置项	说明
基础设施类型	选择监控的对象类型：主机、进程、容器、Pod、Service、Deployment、Node、ReplicaSet、Job、CronJob
检测对象	选择检测范围：全部：针对工作空间内所有该类型对象进行检测自定义：通过 Wildcard 模糊匹配或标签筛选，限定检测范围
附加信息	选定字段后，系统会做额外查询用于丰富事件内容，但不参与触发条件判断。若检测到多个匹配值，会随机返回一条记录。支持字段如：`unicast_ip`、`Scheck`、`instance_id`、`region` 等

选择“自定义”后，支持以下筛选方式：

Wildcard 匹配：输入通配符表达式进行模糊匹配（如 web-*）。支持输入通配符进行模糊匹配，若内容中存在特殊字符“反斜杠 \”，需要转义后才能生效；
标签筛选：通过标签（如操作系统、标签等）及更多字段（datakit_ver、zone_id、cloud_provider 等）进行精准过滤。

配置各告警级别（致命、严重、重要、警告）的触发条件，以及正常恢复条件。

等级	配置	说明
致命	检测对象连续 `[N]` 分钟未上报数据	最高等级告警，需立即处理
严重	检测对象连续 `[N]` 分钟未上报数据	高等级告警，需优先处理
重要	检测对象连续 `[N]` 分钟未上报数据	中等级告警，需关注
警告	检测对象连续 `[N]` 分钟未上报数据	低等级告警，需留意
正常	`[N]` 次检测无事件产生	产生异常事件后，连续 N 次检测未再触发异常，则产生恢复事件（正常事件）

输入值范围

致命、严重、重要、警告的输入值范围为 5～999 分钟。若输入值小于 5 分钟，需调整检测频率或区间以避免检测误报。

多对象检测逻辑

当查询结果返回多个对象时，只要其中任一对象满足所设条件，即触发相应级别的事件。

更多详情，可参考事件等级说明。

完成上述检测配置后，请继续配置：