跳转至

基础设施存活检测 V2


当前文档定位

本文档为检测规则配置流程中的第二步。配置完成后,请返回主文档继续第三步:事件通知

数据范围:对象(O)。用于监控基础设施中关键对象(如主机、容器、Pod 等)数据上报的稳定性。通过设置检测条件和告警级别,及时发现并处理异常,确保基础设施稳定运行。

检测配置

检测频率

设置执行检测的时间周期。

  • 预设选项:5 分钟、15 分钟、30 分钟、1 小时、6 小时、12 小时、24 小时

  • Crontab 模式:点击“切换到 Crontab 模式”可配置自定义周期

注意

由于对象数据上报每 5 分钟更新一次,检测频率应大于 5 分钟且小于 1 天,以避免误报或检测延迟。

检测区间

设置每次检测查询的数据时间范围(需 ≥ 检测频率)。

检测频率 检测区间(下拉可选项)
5m 最近 10 分钟 / 15 分钟 / 30 分钟 / 1 小时 / 6 小时 / 12 小时 / 24 小时
15m 最近 15 分钟 / 30 分钟 / 1 小时 / 6 小时 / 12 小时 / 24 小时
30m 最近 30 分钟 / 1 小时 / 6 小时 / 12 小时 / 24 小时
1h 最近 1 小时 / 6 小时 / 12 小时 / 24 小时
6h 最近 6 小时 / 12 小时 / 24 小时
12h 最近 12 小时 / 24 小时
24h 最近 24 小时
  • 自定义格式:如,支持 20m(最近 20 分钟)、2h(最近 2 小时)、1d(最近 1 天)

检测指标

基于基础设施对象数据,监控其数据上报状态。

配置项 说明
基础设施类型 选择监控的对象类型:主机、进程、容器、Pod、Service、Deployment、Node、ReplicaSet、Job、CronJob
检测对象 选择检测范围:

  • 全部:针对工作空间内所有该类型对象进行检测
  • 自定义:通过 Wildcard 模糊匹配或标签筛选,限定检测范围
  • 附加信息 选定字段后,系统会做额外查询用于丰富事件内容,但不参与触发条件判断。若检测到多个匹配值,会随机返回一条记录。支持字段如:unicast_ipScheckinstance_idregion

    自定义检测对象配置

    选择“自定义”后,支持以下筛选方式:

    • Wildcard 匹配:输入通配符表达式进行模糊匹配(如 web-*)。支持输入通配符进行模糊匹配,若内容中存在特殊字符“反斜杠 \”,需要转义后才能生效;
    • 标签筛选:通过标签(如操作系统标签等)及更多字段(datakit_verzone_idcloud_provider 等)进行精准过滤。

    触发条件

    配置各告警级别(致命、严重、重要、警告)的触发条件,以及正常恢复条件。

    等级 配置 说明
    致命 检测对象连续 [N] 分钟未上报数据 最高等级告警,需立即处理
    严重 检测对象连续 [N] 分钟未上报数据 高等级告警,需优先处理
    重要 检测对象连续 [N] 分钟未上报数据 中等级告警,需关注
    警告 检测对象连续 [N] 分钟未上报数据 低等级告警,需留意
    正常 [N] 次检测无事件产生 产生异常事件后,连续 N 次检测未再触发异常,则产生恢复事件(正常事件)
    输入值范围

    致命、严重、重要、警告的输入值范围为 5~999 分钟。若输入值小于 5 分钟,需调整检测频率或区间以避免检测误报。

    多对象检测逻辑

    当查询结果返回多个对象时,只要其中任一对象满足所设条件,即触发相应级别的事件。

    更多详情,可参考 事件等级说明

    后续配置

    完成上述检测配置后,请继续配置:

    1. 事件通知:定义事件标题、内容、通知成员、数据断档处理及关联故障;
    2. 告警配置:选择告警策略,设置通知对象和静默周期;
    3. 关联:关联仪表板,便于快速跳转查看数据;
    4. 权限:设置操作权限,控制谁可以编辑/删除此监控器。

    文档评价

    文档内容是否对您有帮助? ×