基础设施存活检测 V2¶
用于监控基础设施中关键对象(如主机、容器、Pod 等)数据上报的稳定性。通过设置检测条件和告警级别,及时发现并处理异常,确保基础设施稳定运行。
检测配置¶
检测频率¶
检测规则的执行频率。
系统默认包含以下频率:
- 5m(默认显示)
- 15m
- 30m
- 1h
- 6h
- 12h
- 24h
同时支持自定义输入检测频率,格式如:20m(20 分钟)、2h(2 小时)、1d(1 天)。
注意
由于对象数据上报每 5 分钟更新一次,因此检测频率应大于 5 分钟且小于 1 天。
检测区间¶
每次执行任务时,检测指标查询的时间范围,受检测频率影响。
可选择系统默认的区间范围,与检测频率之间的对应关系如下:
检测频率 | 检测区间 |
---|---|
5m | 5m 15m 30m 1h 6h 12h 24h |
15m | 15m 30m 1h 6h 12h 24h |
30m | 30m 1h 6h 12h 24h |
1h | 1h 6h 12h 24h |
6h | 6h 12h 24h |
12h | 12h 24h |
24h | 24h |
注意
自定义输入检测区间的时间范围需 ≥ 检测频率的时间范围。
检测指标¶
监控的指标数据,涵盖多种基础设施类型:
- 基础设施类型:包含主机、进程、容器、Pod、Service、Deployment、Node、ReplicaSet、Job、CronJob;
-
检测对象:支持选择“所有”或“自定义”对象;
- 全部:针对工作空间内所有对象进行检测,判断数据的最后上报更新时间是否触发阈值。
- 自定义:通过 wildcard 模糊匹配或精准匹配的筛选条件,限定检测范围内的基础设施对象,判断其数据的最后上报更新时间是否触发阈值。
-
附加信息:选定字段后,系统会做额外查询,但不用于触发条件判断。
触发条件¶
可设置紧急、重要、警告、正常四个告警级别的触发条件。配置多个触发条件及严重程度,任一满足即产生事件。
告警级别¶
-
紧急(红色)、重要(橙色)、警告(黄色):基于配置条件判断检测对象数据的最后上报更新时间是否触发告警。
-
正常(绿色):检测规则生效后,产生异常事件后,在自定义检测次数内数据恢复正常,则产生恢复告警事件。
更多详情,可参考 事件等级说明。
检测次数¶
基于配置的检测次数,说明如下:
- 每执行一次检测任务即为 1 次检测,如检测频率为 5 分钟,则 1 次检测 = 5 分钟。
- 可自定义检测次数,如检测频率为 5 分钟,3 次检测 = 15 分钟。
- 检测次数内无异常事件产生,则产生正常事件。
注意
触发条件支持配置紧急、重要、警告的输入值范围为 5~999,输入值小于 5 时需调整,以避免检测误报。