跳转至

基础设施存活检测 V2


用于监控基础设施中关键对象(如主机、容器、Pod 等)数据上报的稳定性。通过设置检测条件和告警级别,及时发现并处理异常,确保基础设施稳定运行。

检测配置

检测频率

检测规则的执行频率。

系统默认包含以下频率:

  • 5m(默认显示)
  • 15m
  • 30m
  • 1h
  • 6h
  • 12h
  • 24h

同时支持自定义输入检测频率,格式如:20m(20 分钟)、2h(2 小时)、1d(1 天)。

注意

由于对象数据上报每 5 分钟更新一次,因此检测频率应大于 5 分钟且小于 1 天。

检测区间

每次执行任务时,检测指标查询的时间范围,受检测频率影响。

可选择系统默认的区间范围,与检测频率之间的对应关系如下:

检测频率 检测区间
5m 5m
15m
30m
1h
6h
12h
24h
15m 15m
30m
1h
6h
12h
24h
30m 30m
1h
6h
12h
24h
1h 1h
6h
12h
24h
6h 6h
12h
24h
12h 12h
24h
24h 24h
注意

自定义输入检测区间的时间范围需 ≥ 检测频率的时间范围。

检测指标

监控的指标数据,涵盖多种基础设施类型:

  1. 基础设施类型:包含主机、进程、容器、Pod、Service、Deployment、Node、ReplicaSet、Job、CronJob;
  2. 检测对象:支持选择“所有”或“自定义”对象;

    • 全部:针对工作空间内所有对象进行检测,判断数据的最后上报更新时间是否触发阈值。
    • 自定义:通过 wildcard 模糊匹配或精准匹配的筛选条件,限定检测范围内的基础设施对象,判断其数据的最后上报更新时间是否触发阈值。
  3. 附加信息:选定字段后,系统会做额外查询,但不用于触发条件判断。

触发条件

可设置紧急、重要、警告、正常四个告警级别的触发条件。配置多个触发条件及严重程度,任一满足即产生事件。

告警级别

  • 紧急(红色)、重要(橙色)、警告(黄色):基于配置条件判断检测对象数据的最后上报更新时间是否触发告警。

  • 正常(绿色):检测规则生效后,产生异常事件后,在自定义检测次数内数据恢复正常,则产生恢复告警事件。

更多详情,可参考 事件等级说明

检测次数

基于配置的检测次数,说明如下:

  • 每执行一次检测任务即为 1 次检测,如检测频率为 5 分钟,则 1 次检测 = 5 分钟。
  • 可自定义检测次数,如检测频率为 5 分钟,3 次检测 = 15 分钟。
  • 检测次数内无异常事件产生,则产生正常事件。
注意

触发条件支持配置紧急、重要、警告的输入值范围为 5~999,输入值小于 5 时需调整,以避免检测误报。

文档评价

文档内容是否对您有帮助? ×