告警策略管理¶
观测云支持对监控器的检测结果进行告警策略管理,通过发送告警通知,让您及时了解监测的异常数据情况、发现问题、解决问题。
系统默认的告警策略
- 每个监控器创建时必须选择一个告警策略,默认选中默认;
- 当某个告警策略被删除时,删除告警策略下的监控器将自动归类到默认下。
新建告警策略¶
在观测云工作空间监控 > 告警策略管理,点击新建告警策略即可添加新的告警策略。可以为告警策略配置告警对象并配置告警聚合。
告警名称¶
即当前告警策略的名称。
通知时区¶
默认显示当前的工作空间时区。若拥有者或管理员未配置,则默认填充 东八区
时区。
通知配置¶
定义各个等级的告警发送通知对象:
恢复通知与通知延迟
- 恢复通知:当历史发送的异常告警事件恢复后,观测云会发送恢复通知到对应通知对象。例如:给某个群发送过相关事件的
紧急
通知,当这一状态开始恢复时,会向此群发送恢复通知。 - 通知延迟:告警通知并非产生后立即发送,会因为数据入库等问题存在最多 1 分钟的延迟。
事件等级:包括紧急、重要、警告、数据断档、信息、全部(该等级表示针对所有等级的事件配置统一的告警通知对象)。
- 一种事件等级可选择多次,如:
- 基于选定的事件等级,您可以联动告警聚合进行告警通知。
通知对象:针对单个异常等级配置通知对象告警通知;通知对象可选择单个或多个。
对象类型如下:
对象类型 | 说明 |
---|---|
空间成员 | 邮件通知,通过在管理 > 成员管理,添加通知对象。 |
团队 | 邮件通知,一个团队可添加多个空间成员,通过在管理 > 成员管理 > 团队管理,添加通知对象。 |
邮件组 | 邮件通知,一个邮件组可添加多个团队,通过在监控 > 通知对象管理,添加通知对象。 |
钉钉机器人、企业微信机器人、飞书机器人 | 群通知,通过在监控 > 通知对象管理,添加通知对象。 |
Webhook 自定义 | 用户自行设定,通过在监控 > 通知对象管理,添加通知对象。 |
短信 | 短信通知,一个短信组可以添加多个空间成员,通过在监控 > 通知对象管理,添加通知对象。观测云体验版无短信通知,其他版本短信通知 0.1 元 / 条,按天计费,没有免费额度。 |
自定义外部邮箱 | 输入邮箱回车即可;仅支持商业版和部署版用户。 |
告警升级通知¶
针对每条通知规则可配置发送升级通知,若某段时间内持续产生相同等级的事件,可发送升级通知给某一对象。
若一个通知规则配置了两个升级,则:
- 如果相同级别的告警持续产生,观测云会检查时间间隔,确定是否需要发送升级通知;
- 发送完首次升级通知后,观测云会根据第二条升级通知配置的时间间隔,判断是否需要再次发送升级通知。
注意:
- 每条规则最多配置 2 个升级通知;
- 每个升级通知只会触发一次,不会存在重复告警的情况。
过滤¶
即,您可以在等级的基础上追加过滤条件。只有同时匹配等级和过滤条件的事件才会发送给对应的通知对象。
自动获取当前工作空间的字段,以 key:value
的形式通过等于、不等于、通配和通配取反的方式设置过滤条件。相同 key
字段的多个过滤条件之间为 OR 的关系,不同 key
字段的过滤条件之间为 AND
的关系。
注意:每条告警规则下仅能添加一组过滤条件,一组条件中可包含一条/多条过滤规则,过滤规则相结合进行条件的筛选。
自定义通知时间¶
如果您想指定某条告警规则的通知时间,可点击自定义通知时间进行配置。
注意:
-
在同一个告警策略的单条自定义通知配置中,若配置了多条规则,产生的异常事件会按照由上到下的顺序进行匹配,并会按照优先匹配的自定义配置发送告警通知。若一直未匹配到规则,则不会发送通知。
-
在配置监控器时,当选择多个告警策略,监控器开启后,产生的异常事件会分别匹配选定的告警策略。
支持修改配置名称;
周期:从按天、按周、按月及自定义这四个维度来划分事件所在的周期。
若选择自定义,需上传 CSV 文件,观测云会根据文件内的填写日期自动填充。文件内日期格式需为 年/月/日
& YYYY/MM/DD
;文件内日期数量最多不超过 365 个。
时间:需根据周期来限定当天事件产生的时间,并按照选定的时间区间发送通知,如选定 09:00 - 10:00
,当策略生效,在这一个小时内产生的异常事件会匹配流入这一则自定义配置。
完成周期、时间相关的配置,即可选择告警级别与通知对象。
重复告警(原告警沉默)¶
若同一个事件不是非常紧急,但是告警通知频率高,可以通过设置重复告警通知的时间间隔这一方式来减少告警通知频率。
注意
- 设置重复告警通知后事件会继续产生,但是告警通知不会再发送,产生的数据会存入事件。
- 若选择【永久】这一重复告警选项,观测云仅发送首次告警通知,后续不再重复发送。
告警聚合¶
不聚合:默认配置;在该模式下,告警事件会按照每 20 秒时间间隔合并为一封通知发送至对应通知对象;
规则聚合:在该模式下,您可以选择以下四种聚合规则并基于聚合周期来发送告警通知:
聚合规则 |
说明 |
---|---|
全部 | 基于告警策略配置的等级维度,在所选的聚合周期内生成对应的告警通知。 |
监控器 / 智能巡检 / SLO | 按照监控器、智能巡检的检测规则或 SLO 的唯一 ID,联动聚合周期生成对应的告警通知。 |
检测维度 | 按照检测维度联动聚合周期生成对应的告警通知,例如 host 。 |
标签 | 可通过全局标签联动监控器,并按照聚合周期生成对应的告警通知;标签支持多选。 若事件同时存在多个标签值,则按照页面配置的标签顺序优先命中到对应的告警通知,多个标签值的关系为 OR。 |
智能聚合:在该模式下,聚合周期内产生的事件将根据选中的 "标题" 或 "内容" 聚类分组,每个分组产生一条告警通知。
- 聚合周期:在规则聚合的模式下,您可以选择手动设置一个时间范围(1-30分钟内),在这个时间段内新增的事件会被聚合成一条告警通知发送。如果超出这个聚合周期,新增的事件将会被聚合到新的告警通知中。
告警策略列表¶
告警策略列表保存有当前工作空间内的全部告警策略。您可以查看告警策略名称、关联监控器、告警聚合以及进行其他相关操作。
功能 | 说明 |
---|---|
查询 | 告警策略列表支持基于告警策略名称进行搜索。 |
批量操作 | 您可以选择批量删除特定告警策略。 |
关联监控器 | 展示告警策略下的监控器个数,点击个数可以跳转到监控器查看告警策略下的监控器详情。 |
告警聚合 | 即显示当前告警策略的聚合方式。 |
告警配置 | 点击 可以修改当前告警策略。 |
删除 | 当告警策略被删除时,删除告警策略下的监控器将自动归类到默认下。 您还可以点击名称旁的 ,即可选中特定图表批量删除。 |