告警策略¶
当监控器发现异常时,会创建异常事件记录。通过将监控器与告警策略关联,可以确保及时向相关对象发送告警通知。
此处的告警策略,观测云除了为其配备名称、描述、时区、操作权限等基础功能外,还可以从等级和成员两个维度来定义告警策略对外发送通知的方式,并为这些策略添加升级通知功能。观测云还允许您自定义通知发送的时间。
为了应对持续发生的异常事件或满足特定告警条件的情况,您可以设置重复告警规则来控制通知的频率。在最终发送通知时,您还可以选择是否将通知聚合,以一种更高效和节约的方式向接收者提供信息。
开始新建¶
- 定义当前告警策略的名称;
- 按需输入针对该策略的描述;
- 选择需要关联的监控器;
- 选择通知时区;
- 选择基于等级或基于成员配置触发通知的告警策略;
- 选择重复告警(原告警沉默)的时间范围;
- 按需选择告警聚合的模式,决定告警通知的最终聚合形式;
- 按需为策略规则添加操作权限;
- 点击保存,即可创建成功。
关联监控器¶
在配置页面,您可以点击选择与当前告警策略关联的监控器;还可根据需要快速创建新监控器以适应新场景。
通知规则配置¶
配置须知
- 恢复通知:当历史发送的异常告警事件恢复后,观测云会发送恢复通知到对应通知对象。例如:给某个群发送过相关事件的
紧急
通知,当这一状态开始恢复时,会向此群发送恢复通知。 - 通知延迟:告警通知并非产生后立即发送,会因为数据入库等问题存在最多 1 分钟的延迟。
目前支持基于等级和基于成员的两种通知配置。
前者在选定事件等级后,为该类异常事件设定通知对象。如果设置了过滤条件,则进一步限制某一等级下的事件数据范围,最终向对象发送通知。
后者为先选定成员或团队,为其框定需要关注或负责的事件数据范围,在这部分数据内,再划定事件等级以及对应要通知到的对象,实现事件与对象的强关联。
基于等级的通知配置¶
定义各个等级下的告警发送通知对象。
类型 |
说明 |
---|---|
空间成员 | 邮件通知;可前往管理 > 成员管理查看。 |
团队 | 邮件通知;一个团队可添加多个空间成员,可前往管理 > 成员管理 > 团队管理查看。 |
邮件组 | 邮件通知;一个邮件组可添加多个团队,可前往监控 > 通知对象管理查看。 |
钉钉/企业微信/飞书机器人 | 群通知;可前往监控 > 通知对象管理查看。 |
Webhook 自定义 | 用户自行设定;可前往监控 > 通知对象管理查看。 |
短信 | 短信通知;一个短信组可以添加多个空间成员,可前往监控 > 通知对象管理查看。 观测云体验版无短信通知,其他版本短信通知 0.1 元 / 条,按天计费,没有免费额度。 |
自定义外部邮箱 | 输入邮箱回车即可;仅支持商业版和部署版用户。 |
基于成员的通知配置¶
基于成员配置通知规则,可以实现精准的点对点告警通知。同时,在一条告警规则中,可以针对多组成员分别配置不同的通知范围、等级、方式,并针对多组成员自定义通知时间范围。
- 选定需要通知到的成员和团队;
- 添加过滤条件,实现标签匹配;
- 针对过滤后的事件数据,您可为不同的事件等级设定对应的通知对象;
- 按需开启自定义通知时间范围的配置。
注意:若您配置了多组自定义通知时间范围,观测云会按照从上到下的顺序匹配,最终只会取第一个匹配到的时间范围内通知规则做告警发送。
添加过滤条件¶
无论是按等级还是按成员配置通知,添加特定的过滤条件可以:
- 对于基于等级的通知,进一步细化特定等级事件的数据范围;
- 对于基于成员的通知,限定成员或团队只关注符合特定标签的事件。
添加过滤后,只有符合等级要求和过滤条件的事件才会触发通知,实现更精准的异常事件通知管理。
点击过滤按钮后,观测云自动获取当前工作空间的字段,以 key:value
的形式通过等于、不等于、通配、通配取反和正则匹配的方式设置过滤条件。相同 key
字段的多个过滤条件之间为 OR 的关系,不同 key
字段的过滤条件之间为 AND
的关系。
您不仅可以直接在页面上选择字段进行配置,还可以通过编写正则表达式来设定更复杂的筛选条件,从而实现更精细的配置。
注意:每条告警规则下仅能添加一组过滤条件,一组条件中可包含一条/多条过滤规则,过滤规则相结合进行条件的筛选。
告警升级通知¶
如果监控器在短时间内频繁检测到同等级异常,可能意味着存在持续性问题。此时可能需要其他通知对象来解决该类问题,您可以采用增设升级通知规则的方式。这样,当异常持续出现时,系统会自动将其提升为紧急通知,并发送给指定接收者,确保问题能被及时关注和处理。
若一条通知规则配置了两个升级,则:
- 如果相同级别的告警持续产生,观测云会检查时间间隔,确定是否需要发送升级通知;
- 发送完首次升级通知后,观测云会根据第二条升级通知配置的时间间隔,判断是否需要再次发送升级通知。
注意:
- 每条规则最多配置 2 个升级通知;
- 每个升级通知只会触发一次,不会存在重复告警的情况。
自定义通知时间¶
以上讨论的场景主要围绕在检测到异常时自动触发通知的即时性。但实际上,您也可以根据需要,自行设定通知发送的具体时间。
- 可按需修改配置名称;
-
依据天、周、月及自定义这四个维度来划分事件所在的周期;
- 若选择自定义,需上传 CSV 文件,观测云会根据文件内的填写日期自动填充。文件内日期格式需为
年/月/日
&YYYY/MM/DD
;文件内日期数量最多不超过 365 个。
- 若选择自定义,需上传 CSV 文件,观测云会根据文件内的填写日期自动填充。文件内日期格式需为
-
根据周期来限定当天事件产生的时间,并按照选定的时间区间发送通知,如选定
09:00 - 10:00
,当策略生效,在这一个小时内产生的异常事件会匹配流入这一则自定义配置; -
完成周期、时间相关的配置,即可选择告警级别与通知对象。
注意:
-
在同一个告警策略的单条自定义通知配置中,若配置了多条规则,产生的异常事件会按照由上到下的顺序进行匹配,并会按照优先匹配的自定义配置发送告警通知。若一直未匹配到规则,则不会发送通知。
-
在配置监控器时,当选择多个告警策略,监控器开启后,产生的异常事件会分别匹配选定的告警策略。
重复告警¶
设置重复告警通知后,在一定的时间范围内,事件数据会继续产生,但是不会再发送告警通知,产生的数据记录会存入事件查看器。
注意:若选择【永久】这一重复告警选项,观测云仅发送首次告警通知,后续不再重复发送。
告警聚合¶
不聚合:默认配置;在该模式下,告警事件会按照每 20 秒时间间隔合并为一封通知发送至对应通知对象;
规则聚合:在该模式下,您可以选择以下四种聚合规则并基于聚合周期来发送告警通知:
聚合规则 |
说明 |
---|---|
全部 | 基于告警策略配置的等级维度,在所选的聚合周期内生成对应的告警通知。 |
监控器/智能巡检/SLO | 按照监控器、智能巡检的检测规则或 SLO 的唯一 ID,联动聚合周期生成对应的告警通知。 |
检测维度 | 按照检测维度联动聚合周期生成对应的告警通知,例如 host 。 |
标签 | 可多选;可通过全局标签联动监控器,按照聚合周期生成对应的告警通知。 若事件同时存在多个标签值,则按照页面配置的标签顺序优先命中到对应的告警通知,多个标签值的关系为 OR。 |
智能聚合:在该模式下,聚合周期内产生的事件将根据选中的标题
或内容
聚类分组,每个分组产生一条告警通知。
聚合周期¶
在规则聚合和智能聚合的模式下,您可以选择手动设置一个时间范围(1-30 分钟内)。
在这个时间段内,新增的事件会被聚合成一条告警通知发送。如果超出这个聚合周期,新增的事件将会被聚合到新的告警通知中。
操作权限¶
设置告警策略的操作权限后,您当前工作空间的角色、团队成员以及空间用户将根据分配的权限,对告警策略执行相应的操作。这确保了不同用户根据其角色和权限级别进行符合配置的操作。
- 不开启该配置:跟随【告警策略配置管理】的默认权限;
- 开启该配置并选定自定义权限对象:此刻仅创建人和被赋予权限的对象可对该条告警策略设置的规则进行启用/禁用、编辑、删除操作;
- 开启该配置,但并未选定自定义权限对象:则仅创建人拥有此告警策略的启用/禁用、编辑、删除权限。
注意:当前工作空间的 Owner 角色不受此处操作权限配置影响。