基础设施存活检测 V2¶
当前文档定位
本文档为检测规则配置流程中的第二步。配置完成后,请返回主文档继续第三步:事件通知。
数据范围:对象(O)。用于监控基础设施中关键对象(如主机、容器、Pod 等)数据上报的稳定性。通过设置检测条件和告警级别,及时发现并处理异常,确保基础设施稳定运行。
检测配置¶
检测频率¶
设置执行检测的时间周期。
-
预设选项:5 分钟、15 分钟、30 分钟、1 小时、6 小时、12 小时、24 小时
-
Crontab 模式:点击“切换到 Crontab 模式”可配置自定义周期
注意
由于对象数据上报每 5 分钟更新一次,检测频率应大于 5 分钟且小于 1 天,以避免误报或检测延迟。
检测区间¶
设置每次检测查询的数据时间范围(需 ≥ 检测频率)。
| 检测频率 | 检测区间(下拉可选项) |
|---|---|
| 5m | 最近 10 分钟 / 15 分钟 / 30 分钟 / 1 小时 / 6 小时 / 12 小时 / 24 小时 |
| 15m | 最近 15 分钟 / 30 分钟 / 1 小时 / 6 小时 / 12 小时 / 24 小时 |
| 30m | 最近 30 分钟 / 1 小时 / 6 小时 / 12 小时 / 24 小时 |
| 1h | 最近 1 小时 / 6 小时 / 12 小时 / 24 小时 |
| 6h | 最近 6 小时 / 12 小时 / 24 小时 |
| 12h | 最近 12 小时 / 24 小时 |
| 24h | 最近 24 小时 |
- 自定义格式:如,支持
20m(最近 20 分钟)、2h(最近 2 小时)、1d(最近 1 天)
检测指标¶
基于基础设施对象数据,监控其数据上报状态。
| 配置项 | 说明 |
|---|---|
| 基础设施类型 | 选择监控的对象类型:主机、进程、容器、Pod、Service、Deployment、Node、ReplicaSet、Job、CronJob |
| 检测对象 | 选择检测范围: |
| 附加信息 | 选定字段后,系统会做额外查询用于丰富事件内容,但不参与触发条件判断。若检测到多个匹配值,会随机返回一条记录。支持字段如:unicast_ip、Scheck、instance_id、region 等 |
自定义检测对象配置¶
选择“自定义”后,支持以下筛选方式:
- Wildcard 匹配:输入通配符表达式进行模糊匹配(如
web-*)。支持输入通配符进行模糊匹配,若内容中存在特殊字符“反斜杠\”,需要转义后才能生效; - 标签筛选:通过标签(如
操作系统、标签等)及更多字段(datakit_ver、zone_id、cloud_provider等)进行精准过滤。
触发条件¶
配置各告警级别(致命、严重、重要、警告)的触发条件,以及正常恢复条件。
| 等级 | 配置 | 说明 |
|---|---|---|
| 致命 | 检测对象连续 [N] 分钟未上报数据 |
最高等级告警,需立即处理 |
| 严重 | 检测对象连续 [N] 分钟未上报数据 |
高等级告警,需优先处理 |
| 重要 | 检测对象连续 [N] 分钟未上报数据 |
中等级告警,需关注 |
| 警告 | 检测对象连续 [N] 分钟未上报数据 |
低等级告警,需留意 |
| 正常 | [N] 次检测无事件产生 |
产生异常事件后,连续 N 次检测未再触发异常,则产生恢复事件(正常事件) |
输入值范围
致命、严重、重要、警告的输入值范围为 5~999 分钟。若输入值小于 5 分钟,需调整检测频率或区间以避免检测误报。
多对象检测逻辑
当查询结果返回多个对象时,只要其中任一对象满足所设条件,即触发相应级别的事件。
更多详情,可参考 事件等级说明。
后续配置¶
完成上述检测配置后,请继续配置: