基础设施存活检测¶
概述¶
基础设施存活检测用于监控基础设施的运行状态,基础设施对象支持选择:主机、容器、Pod、Deployment、Node。
应用场景¶
监控长期存活的基础设施是否出现异常中断,支持对主机、容器、Pod、Deployment、Node 的运行状态进行监控。
规则说明¶
进入监控器 > 新建监控器,选择基础设施存活监控,进入检测规则的配置页面。
步骤一:检测配置¶
1)检测频率:检测规则的执行频率,包含【5分钟/10分钟/15分钟/30分钟/1小时/12小时/24小时】,默认选中 5 分钟。
2)检测指标:监控的指标数据。
字段 | 说明 |
---|---|
对象类型 | 包含【主机】【容器】【Pod】【Deployment】【Node】 |
筛选 | 下拉仅为筛选无搜索功能 默认检测对象的名称tag放在第一位 |
开关 | 只有类型为主机时存在,开启后,筛选框置灰失效 |
3)触发条件:设置告警级别的触发条件。
- 信息(蓝色):正常检测结果也产生事件;
- 满足条件触发事件无数据事件;
- 检测次数内无异常事件产生,则产生正常事件。
注意:监控器无法查询到检测对象的任何数据,数据上报可能存在异常。
步骤二:事件通知¶
4)事件标题:设置告警触发条件的事件名称,支持使用预置的模板变量。
注意:最新版本中监控器名称将由事件标题输入后同步生成。旧的监控器中可能存在监控器名称和事件标题不一致的情况,为了给您更好的使用体验,请尽快同步至最新。支持一键替换为事件标题。
5)事件内容:满足触发条件时发送的事件通知内容,支持输入 Markdown 格式文本信息,支持预览效果,支持使用预置的 关联链接,支持使用预置的 模板变量。
注意:不同告警通知对象支持的 Markdown 语法不同,例如:企业微信不支持无序列表。
无数据通知配置:支持自定义无数据通知内容,若没有配置,则自动使用官方默认的通知模版。
6)告警策略:监控满足触发条件后,立即发送告警消息给指定的通知对象。告警策略中包含需要通知的事件等级、通知对象、以及告警沉默周期。
7)同步创建 Issue:若该监控器下产生了异常事件,将同步创建 Issue 异常追踪,投递到异常追踪的频道中。您可以前往异常追踪 > 您选定的频道进行查看。
步骤三:关联¶
8)关联仪表板:每一个监控器都支持关联一个仪表板,即通过关联仪表板功能能够自定义快速跳转的仪表板(监控器关联的仪表板,支持快速跳转查看监控视图)。
示例¶
假设您的主机需要 24 小时运行,不能出现宕机,您就可以配置主机存活告警,如果连续 10 分钟出现无数据情况,触发告警。