跳转至

基础设施存活检测


概述

「基础设施存活检测」用于监控基础设施的运行状态,基础设施对象支持选择:主机、容器、Pod、Deployment、Node。

规则说明

在「监控器」中,点击「+新建监控器」,选择「基础设施存活监控」,进入检测规则的配置页面。

步骤1.基本信息

1)规则名称:检测规则的名称。

2)关联仪表板:每一个监控器都支持关联一个仪表板,即通过「关联仪表板」功能能够自定义快速跳转的仪表板(监控器关联的仪表板,支持快速跳转查看监控视图)。

步骤2.检测配置

3)检测频率:检测规则的执行频率,包含【5分钟/10分钟/15分钟/30分钟/1小时】,默认选中5分钟。

4)检测对象:每次执行任务时,检测指标查询的时间范围。受检测频率影响,可选检测区间会有不同。(支持用户自定义)

字段 说明
对象类型 包含【主机】【容器】【Pod】【Deployment】【Node】
筛选 下拉仅为筛选无搜索功能
默认检测对象的名称tag放在第一位
开关 只有类型为主机时存在,开启后,筛选框置灰失效
维度 不需要用户选择,默认为当前所选对象名称
主机:by host
容器:by container_name
Pod:pod_name
Deployment:deployment_name
Node:node_name;

5)触发条件:设置告警级别的触发条件。

  • 满足条件触发事件无数据事件
  • 检测周期无异常事件产生,则产生正常事件

注意:监控器无法查询到检测对象的任何数据,数据上报可能存在异常。

步骤3.事件通知

6)事件标题:设置告警触发条件的事件名称,支持使用预置的模板变量,详情参考 模板变量

7)事件内容:满足触发条件时发送的事件通知内容,支持输入markdown 格式文本信息,支持预览效果,支持使用预置的模板变量,详情参考 模板变量

注意:不同告警通知对象支持的 markdown 语法不同,例如:企业微信不支持无序列表。

8)告警策略:监控满足触发条件后,立即发送告警消息给指定的通知对象。告警策略中包含需要通知的事件等级、通知对象、以及告警沉默周期。详情参考 告警策略