检测规则¶
系统内置丰富的检测规则,可精准匹配各类数据的监控需求,有效避免误告警与漏告警。
配置流程¶
创建监控器需按以下顺序完成配置:
- 选择规则类型:决定检测配置的数据范围与算法逻辑;
- 检测配置:不同类型对应不同配置项;
- 事件通知:定义事件标题、内容、关联信息及数据断档处理;
- 告警配置:设置通知策略与沉默周期;
- 关联:配置仪表板关联;
- 权限:设置操作权限。
除“检测配置”随规则类型变化外,事件通知、告警配置、关联与权限在所有规则类型中配置逻辑一致。
规则类型¶
您可根据监控目标选择适合的检测逻辑:
规则名称 |
数据范围 |
基本描述 |
|---|---|---|
| 阈值检测 | 全部 | 基于设置的阈值对指标数据进行异常检测 |
| 突变检测 | 指标(M) | 基于历史数据对指标的突发反常表现进行异常检测,多适用于业务数据、时问窗短的场景 |
| 区间检测 | 指标(M) | 基于动态阈值范围对指标的异常数据点进行检测,多适用于趋势稳定时间线 |
| 区间检测 V2 | 指标(M) 链路(T) 用户访问数据(R) |
基于动态阈值范围对指标的异常数据点进行检测,多适用于趋势稳定时间线 |
| 离群检测 | 指标(M) | 检测特定分组下检测对象的指标/统计数据是否存在离群偏差情况 |
| 日志检测 | 日志(L) | 基于日志数据进行业务应用的异常检测 |
| 进程异常检测 | 进程对象(O::host_processes) |
定时检测进程数据,了解进程异常情况 |
| 基础设施存活检测 V2 | 对象(O) | 基于基础设施对象数据,设置存活条件,监控基础设施的稳定性 |
| 应用性能指标检测 | 链路(T) | 基于应用性能监测数据,设置阈值规则,检测异常情况 |
| 用户访问指标检测 | 用户访问数据(R) | 基于用户访问监测数据,设置阈值规则,检测异常情况 |
| 组合检测 | 全部 | 将多个监控器的结果通过表达式组合成一个监控器,基于组合后的结果进行告警 |
| 可用性数据检测 | 可用性数据(D::类型) |
基于可用性监测数据,设置阈值规则,检测异常情况 |
| 网络数据检测 | 网络(N) | 基于网络数据,设置阈值规则,检测网络性能的稳定性 |
| 外部事件检测 | 其他 | 通过指定 URL 地址,将第三方系统产生的异常事件或记录以 POST 请求方式发送到 HTTP 服务器后生成事件数据 |
| 基础设施变更检测 | 对象(O) | 基于对基础设施生命周期的追踪,监控各类变更行为,精准识别出配置漂移、非法操作等异常状况 |
| 可编程检测 | 全部 | 以脚本编写检测规则,多适用于规则多变较为复杂的监控场景 |
选择规则类型后,“检测配置”模块的可选参数将随之变化。事件通知及后续配置在所有类型中保持一致。
检测配置¶
您可根据不同的检测规则类型,分别配置对应的检测频率、检测区间和检测指标。
不同规则类型的检测配置差异较大,请参考对应类型的详细配置文档。
事件通知¶
定义监控器触发时产生的事件标题、内容、通知成员及关联处理。
事件标题¶
定义告警触发条件的事件名称;可使用预置的模板变量。
注意
最新版本中,监控器名称将由事件标题输入后同步生成。旧的监控器中可能存在监控器名称和事件标题不一致的情况,建议同步至最新。
事件内容¶
写入事件通知内容,满足触发条件时,系统会对外发送该部分内容。一般包含以下信息:
关联链接¶
点击 + 链接,系统根据当前检测指标自动生成跳转链接。链接地址包含当前域名、工作空间 ID、检测时间范围({{df_check_range_start}} ~ {{df_check_range_end}})及动态过滤条件。
| 链接类型 | 说明 | 配置要求 |
|---|---|---|
| 自定义链接 | 支持任意 URL,可使用模板变量 | 需手动填写完整链接地址 |
| 查看相关日志 | 跳转到日志查看器 | 自动生成,插入后可调整过滤条件和时间范围 |
| 查看相关链路 | 跳转到链路查看器 | 自动生成,自动关联当前 trace_id 或服务名 |
| 查看相关 Profile | 跳转到 Profile 查看器 | 自动生成,自动填充服务名及时间范围 |
| 查看相关容器 | 跳转到容器对象详情 | 自动生成,自动匹配容器名称及主机标签 |
| 查看相关 Pod | 跳转到 Pod 对象详情 | 自动生成,自动填充 Pod 名称及命名空间 |
| 查看相关进程 | 跳转到进程对象详情 | 自动生成,自动匹配主机及进程名 |
| 查看相关 Session | 跳转到 RUM 会话重放 | 自动生成,自动填充 Session ID |
| 查看相关 View | 跳转到 RUM View查看器 | 自动生成,自动填充视图路径 |
| 查看相关 Error | 跳转到 RUM Error 查看器 | 自动生成,自动填充错误类型及时间范围 |
| 查看相关 Resource | 跳转到 RUM Resource 查看器 | 自动生成,自动填充资源路径 |
| 查看相关可用性监测 | 跳转到拨测任务详情 | 自动生成,自动关联拨测任务名称 |
| 查看相关仪表板 | 跳转到指定仪表板 | 需手动补充仪表板 ID 和名称,支持调整视图变量和时间范围 |
链接格式示例:
日志查看器:[查看相关日志](<{{STUDIO_CONSOLE_BASE_URL}}/logIndi/log/all?time={{df_check_range_start}},{{df_check_range_end}}&w={{df_workspace_uuid}}>)
链路查看器:[查看相关链路](<{{STUDIO_CONSOLE_BASE_URL}}/tracing/link/all?time={{df_check_range_start}},{{df_check_range_end}}&w={{df_workspace_uuid}}>)
模板变量¶
点击 + 变量插入预置模板变量,变量在事件触发时动态替换为实际值:
| 变量 | 说明 |
|---|---|
{{df_dimension}} |
检测维度对象 |
{{df_monitor_checker_name}} |
当前监控器名称 |
{{df_monitor_name}} |
所属告警策略名称 |
{{Result}} |
检测结果数值 |
{{df_status}} |
事件状态(error/warning/ok) |
{{df_event_id}} |
事件唯一标识 |
点击查看支持的全部模版变量。
高级配置¶
通过“高级配置”,通过 DQL 在事件中嵌入关联数据上下文。
1. 添加关联日志
点击后自动生成模板:
{% set dql_data = DQL("L::RE(`.*`):(`message`) { `index` = 'default' } LIMIT 1") %}
{{ dql_data.message | limit_lines(10) }}
配置要点:
-
需替换
{index= 'default' }为实际索引名 -
RE(``.*``)支持正则匹配,如RE(``error\|exception``) -
limit_lines(10)限制输出行数,避免通知过长
2. 添加关联错误堆栈
点击后自动生成模板:
{% set dql_data = DQL("T::re(`.*`):(`error_message`,`error_stack`){ (`source` NOT IN ['service_map', 'tracing_stat', 'service_list_1m', 'service_list_1d', 'service_list_1h', 'profile']) AND (`error_stack` = exists()) } LIMIT 1") %}
{{ dql_data.error_message | limit_lines(10) }}
{{ dql_data.error_stack | limit_lines(10) }}
配置要点:
-
source NOT IN [...]排除统计类聚合数据,仅保留原始链路 -
(error_stack= exists())确保返回含堆栈信息的错误
通知成员(@)¶
点击选择工作空间成员。
生效逻辑:
自定义通知内容¶
默认情况下,系统会使用事件内容作为告警通知内容。如果需要自定义实际对外发送的通知,可以选择在此处启用开关,填入通知信息。
- 展开独立编辑器,可单独定义对外发送的通知内容;
- 原事件内容仍保留在平台内用于事件详情展示;
- 独立编辑器同样支持 Markdown、模板变量、关联链接及高级配置。
数据断档事件¶
即自定义数据断档(无数据上报)时的通知内容。您可以同步配置该类事件最终对外发送时的标题、内容等信息。
如未自定义配置,系统使用官方默认模板发送断档告警。
关联故障¶
开启关联后,若该监控器下产生了异常事件,将同步创建故障。
配置项¶
- 为自动创建的故障添加标签,便于故障中心分类筛选;
-
配置事件等级与故障等级的映射关系,支持添加多条规则。
- 当选择致命/严重/重要/警告/数据断档等级事件产生时,同步创建新故障等级 P0/P1/P2/P3/...
此处产生的故障可以前往故障中心进行查看(❗️此类故障包含标签筛选条件)。
联动机制¶
- 事件触发时自动在故障中心创建故障记录,故障描述自动同步事件内容;
- 根据事件内容中的 @ 成员列表发送故障新增通知;
- 可在故障中心查看故障详情,系统会自动关联并展示与该故障相关的全链路数据(性能指标、错误日志、调用链路、基础设施拓扑等)。
告警配置¶
监控满足触发条件后,立即发送告警消息给指定的通知对象。
告警策略¶
选择已创建的告警策略,支持多选。点击策略名可展开查看详情,点击编辑告警策略可修改配置:
| 配置项 | 说明 |
|---|---|
| 通知配置 | 显示该策略绑定的通知对象分组(如:全部等) |
| 重复告警 | 相同事件在指定时间内(如 10 分钟)不发送重复告警通知 |
| 告警聚合 | 聚合方式,如 AI 聚合 |
| 聚合周期 | 指定时间内(如 5 分钟)的新增事件聚合成一条告警通知发送,超出周期后新增事件将聚合到新的告警通知 |
关联¶
选择已创建的仪表板,建立监控器与仪表板的关联关系,以便快速跳转,可视化查看监控数据。
权限¶
设置监控器的操作权限,确保不同用户根据其角色和权限级别进行符合配置的操作(❗️当前工作空间的 Owner 角色不受此处操作权限配置影响)。
- 不开启该配置:跟随“监控器配置管理”的默认权限;
- 开启该配置并选定自定义权限对象:仅创建人和被赋予权限的对象可对该监控器设置的规则进行启用/禁用、编辑、删除操作;
- 开启该配置,但并未选定自定义权限对象:则仅创建人拥有此监控器的启用/禁用、编辑、删除权限。
立即触发检测¶
规则配置完成后,点击立即触发检测可手动执行一次测试,验证当前规则配置的整体效果。测试执行不会产生实际的告警通知。
更多阅读¶
监控器规则创建成功后,您可能需要:



