跳转至

基础设施存活检测


概述

基础设施存活检测用于监控基础设施的运行状态,基础设施对象支持选择:主机、容器、Pod、Deployment、Node。

应用场景

监控长期存活的基础设施是否出现异常中断,支持对主机、容器、Pod、Deployment、Node 的运行状态进行监控。

规则说明

进入监控器 > 新建监控器,选择基础设施存活监控,进入检测规则的配置页面。

步骤一:检测配置

1)检测频率:检测规则的执行频率,包含【5分钟/10分钟/15分钟/30分钟/1小时/12小时/24小时】,默认选中 5 分钟。

2)检测指标:监控的指标数据。

字段 说明
对象类型 包含【主机】【容器】【Pod】【Deployment】【Node】
筛选 下拉仅为筛选无搜索功能
默认检测对象的名称tag放在第一位
开关 只有类型为主机时存在,开启后,筛选框置灰失效

3)触发条件:设置告警级别的触发条件。

  • 信息(蓝色):正常检测结果也产生事件;
  • 满足条件触发事件无数据事件;
  • 检测次数内无异常事件产生,则产生正常事件。

注意:监控器无法查询到检测对象的任何数据,数据上报可能存在异常。

步骤二:事件通知

4)事件标题:设置告警触发条件的事件名称,支持使用预置的模板变量

注意:最新版本中监控器名称将由事件标题输入后同步生成。旧的监控器中可能存在监控器名称事件标题不一致的情况,为了给您更好的使用体验,请尽快同步至最新。支持一键替换为事件标题。

5)事件内容:满足触发条件时发送的事件通知内容,支持输入 Markdown 格式文本信息,支持预览效果,支持使用预置的 关联链接,支持使用预置的 模板变量

注意:不同告警通知对象支持的 Markdown 语法不同,例如:企业微信不支持无序列表。

无数据通知配置:支持自定义无数据通知内容,若没有配置,则自动使用官方默认的通知模版。

6)告警策略:监控满足触发条件后,立即发送告警消息给指定的通知对象。告警策略中包含需要通知的事件等级、通知对象、以及告警沉默周期。

7)同步创建 Issue:若该监控器下产生了异常事件,将同步创建 Issue 异常追踪,投递到异常追踪的频道中。您可以前往异常追踪 > 您选定的频道进行查看。

步骤三:关联

8)关联仪表板:每一个监控器都支持关联一个仪表板,即通过关联仪表板功能能够自定义快速跳转的仪表板(监控器关联的仪表板,支持快速跳转查看监控视图)。

示例

假设您的主机需要 24 小时运行,不能出现宕机,您就可以配置主机存活告警,如果连续 10 分钟出现无数据情况,触发告警。

文档评价

文档内容是否对您有帮助? ×