检测规则¶

系统内置丰富的检测规则，可精准匹配各类数据的监控需求，有效避免误告警与漏告警。

配置流程¶

创建监控器需按以下顺序完成配置：

选择规则类型：决定检测配置的数据范围与算法逻辑；
检测配置：不同类型对应不同配置项；
事件通知：定义事件标题、内容、关联信息及数据断档处理；
告警配置：设置通知策略与沉默周期；
关联：配置仪表板关联；
权限：设置操作权限。

除“检测配置”随规则类型变化外，事件通知、告警配置、关联与权限在所有规则类型中配置逻辑一致。

规则类型¶

您可根据监控目标选择适合的检测逻辑：

规则名称	数据范围	基本描述
阈值检测	全部	基于设置的阈值对指标数据进行异常检测
突变检测	指标(M)	基于历史数据对指标的突发反常表现进行异常检测，多适用于业务数据、时问窗短的场景
区间检测	指标(M)	基于动态阈值范围对指标的异常数据点进行检测，多适用于趋势稳定时间线
区间检测 V2	指标(M) 链路(T) 用户访问数据(R)	基于动态阈值范围对指标的异常数据点进行检测，多适用于趋势稳定时间线
离群检测	指标(M)	检测特定分组下检测对象的指标/统计数据是否存在离群偏差情况
日志检测	日志(L)	基于日志数据进行业务应用的异常检测
进程异常检测	进程对象(O::`host_processes`)	定时检测进程数据，了解进程异常情况
基础设施存活检测 V2	对象(O)	基于基础设施对象数据，设置存活条件，监控基础设施的稳定性
应用性能指标检测	链路(T)	基于应用性能监测数据，设置阈值规则，检测异常情况
用户访问指标检测	用户访问数据(R)	基于用户访问监测数据，设置阈值规则，检测异常情况
组合检测	全部	将多个监控器的结果通过表达式组合成一个监控器，基于组合后的结果进行告警
可用性数据检测	可用性数据(D::`类型`)	基于可用性监测数据，设置阈值规则，检测异常情况
网络数据检测	网络(N)	基于网络数据，设置阈值规则，检测网络性能的稳定性
外部事件检测	其他	通过指定 URL 地址，将第三方系统产生的异常事件或记录以 POST 请求方式发送到 HTTP 服务器后生成事件数据
基础设施变更检测	对象(O)	基于对基础设施生命周期的追踪，监控各类变更行为，精准识别出配置漂移、非法操作等异常状况
可编程检测	全部	以脚本编写检测规则，多适用于规则多变较为复杂的监控场景

选择规则类型后，“检测配置”模块的可选参数将随之变化。事件通知及后续配置在所有类型中保持一致。

检测配置¶

您可根据不同的检测规则类型，分别配置对应的检测频率、检测区间和检测指标。

不同规则类型的检测配置差异较大，请参考对应类型的详细配置文档。

事件通知¶

定义监控器触发时产生的事件标题、内容、通知成员及关联处理。

事件标题¶

定义告警触发条件的事件名称；可使用预置的模板变量。

注意

最新版本中，监控器名称将由事件标题输入后同步生成。旧的监控器中可能存在监控器名称和事件标题不一致的情况，建议同步至最新。

事件内容¶

写入事件通知内容，满足触发条件时，系统会对外发送该部分内容。一般包含以下信息：

Markdown 格式的正文；
可插入关联链接和模板变量；
基于高级配置添加关联日志或错误信息；
发送事件内容的目标通知成员。

关联链接¶

点击 + 链接，系统根据当前检测指标自动生成跳转链接。链接地址包含当前域名、工作空间 ID、检测时间范围（{{df_check_range_start}} ~ {{df_check_range_end}}）及动态过滤条件。

链接类型	说明	配置要求
自定义链接	支持任意 URL，可使用模板变量	需手动填写完整链接地址
查看相关日志	跳转到日志查看器	自动生成，插入后可调整过滤条件和时间范围
查看相关链路	跳转到链路查看器	自动生成，自动关联当前 `trace_id` 或服务名
查看相关 Profile	跳转到 Profile 查看器	自动生成，自动填充服务名及时间范围
查看相关容器	跳转到容器对象详情	自动生成，自动匹配容器名称及主机标签
查看相关 Pod	跳转到 Pod 对象详情	自动生成，自动填充 Pod 名称及命名空间
查看相关进程	跳转到进程对象详情	自动生成，自动匹配主机及进程名
查看相关 Session	跳转到 RUM 会话重放	自动生成，自动填充 Session ID
查看相关 View	跳转到 RUM View查看器	自动生成，自动填充视图路径
查看相关 Error	跳转到 RUM Error 查看器	自动生成，自动填充错误类型及时间范围
查看相关 Resource	跳转到 RUM Resource 查看器	自动生成，自动填充资源路径
查看相关可用性监测	跳转到拨测任务详情	自动生成，自动关联拨测任务名称
查看相关仪表板	跳转到指定仪表板	需手动补充仪表板 ID 和名称，支持调整视图变量和时间范围

链接格式示例：

日志查看器：[查看相关日志](<{{STUDIO_CONSOLE_BASE_URL}}/logIndi/log/all?time={{df_check_range_start}},{{df_check_range_end}}&w={{df_workspace_uuid}}>)

链路查看器：[查看相关链路](<{{STUDIO_CONSOLE_BASE_URL}}/tracing/link/all?time={{df_check_range_start}},{{df_check_range_end}}&w={{df_workspace_uuid}}>)

模板变量¶

点击 + 变量插入预置模板变量，变量在事件触发时动态替换为实际值：

变量	说明
`{{df_dimension}}`	检测维度对象
`{{df_monitor_checker_name}}`	当前监控器名称
`{{df_monitor_name}}`	所属告警策略名称
`{{Result}}`	检测结果数值
`{{df_status}}`	事件状态（`error`/`warning`/`ok`）
`{{df_event_id}}`	事件唯一标识

点击查看支持的全部模版变量。

高级配置¶

通过“高级配置”，通过 DQL 在事件中嵌入关联数据上下文。

1. 添加关联日志

点击后自动生成模板：

{% set dql_data = DQL("L::RE(`.*`):(`message`) { `index` = 'default' } LIMIT 1") %}
{{ dql_data.message | limit_lines(10) }}

配置要点：

需替换 {index= 'default' } 为实际索引名
RE(``.*``) 支持正则匹配，如 RE(``error\|exception``)
limit_lines(10) 限制输出行数，避免通知过长

2. 添加关联错误堆栈

点击后自动生成模板：

{% set dql_data = DQL("T::re(`.*`):(`error_message`,`error_stack`){ (`source` NOT IN ['service_map', 'tracing_stat', 'service_list_1m', 'service_list_1d', 'service_list_1h', 'profile']) AND (`error_stack` = exists()) } LIMIT 1") %}
{{ dql_data.error_message | limit_lines(10) }}
{{ dql_data.error_stack | limit_lines(10) }}

配置要点：

source NOT IN [...] 排除统计类聚合数据，仅保留原始链路
(error_stack= exists()) 确保返回含堆栈信息的错误

通知成员（@）¶

点击选择工作空间成员。

生效逻辑：

仅当启用关联故障时，@ 成员配置才会生效并向指定成员发送此处的事件内容；
此配置与告警配置中的通知对象相互独立，不影响告警通知范围。

自定义通知内容¶

默认情况下，系统会使用事件内容作为告警通知内容。如果需要自定义实际对外发送的通知，可以选择在此处启用开关，填入通知信息。

展开独立编辑器，可单独定义对外发送的通知内容；
原事件内容仍保留在平台内用于事件详情展示；
独立编辑器同样支持 Markdown、模板变量、关联链接及高级配置。

数据断档事件¶

即自定义数据断档（无数据上报）时的通知内容。您可以同步配置该类事件最终对外发送时的标题、内容等信息。

如未自定义配置，系统使用官方默认模板发送断档告警。

关联故障¶

开启关联后，若该监控器下产生了异常事件，将同步创建故障。

配置项¶

为自动创建的故障添加标签，便于故障中心分类筛选；
配置事件等级与故障等级的映射关系，支持添加多条规则。
- 当选择致命/严重/重要/警告/数据断档等级事件产生时，同步创建新故障等级 P0/P1/P2/P3/...

此处产生的故障可以前往故障中心进行查看（❗️此类故障包含标签筛选条件）。

联动机制¶

事件触发时自动在故障中心创建故障记录，故障描述自动同步事件内容；
根据事件内容中的 @ 成员列表发送故障新增通知；
可在故障中心查看故障详情，系统会自动关联并展示与该故障相关的全链路数据（性能指标、错误日志、调用链路、基础设施拓扑等）。

告警配置¶

监控满足触发条件后，立即发送告警消息给指定的通知对象。

告警策略¶

选择已创建的告警策略，支持多选。点击策略名可展开查看详情，点击编辑告警策略可修改配置：

配置项	说明
通知配置	显示该策略绑定的通知对象分组（如：`全部`等）
重复告警	相同事件在指定时间内（如 10 分钟）不发送重复告警通知
告警聚合	聚合方式，如 AI 聚合
聚合周期	指定时间内（如 5 分钟）的新增事件聚合成一条告警通知发送，超出周期后新增事件将聚合到新的告警通知

关联¶

选择已创建的仪表板，建立监控器与仪表板的关联关系，以便快速跳转，可视化查看监控数据。

权限¶

设置监控器的操作权限，确保不同用户根据其角色和权限级别进行符合配置的操作（❗️当前工作空间的 Owner 角色不受此处操作权限配置影响）。

不开启该配置：跟随“监控器配置管理”的默认权限；
开启该配置并选定自定义权限对象：仅创建人和被赋予权限的对象可对该监控器设置的规则进行启用/禁用、编辑、删除操作；
开启该配置，但并未选定自定义权限对象：则仅创建人拥有此监控器的启用/禁用、编辑、删除权限。

立即触发检测¶

规则配置完成后，点击立即触发检测可手动执行一次测试，验证当前规则配置的整体效果。测试执行不会产生实际的告警通知。

告警缓存保护机制¶

配置完成后，监控器在运行期间将执行以下保护策略，系统通过以下机制防止因高基数聚合产生过量检测对象导致系统压力：

阶段	触发条件	系统行为
阈值预警	检测对象数量达到系统限制的 80%（80,000 条）	触发系统通知（每天最多 1 次），提醒检查查询条件与分组设置
超限保护	检测对象数量达到系统上限 100,000 条	自动暂停监控器并发送通知，暂停期间停止运行

告警缓存上限为 100,000 条，预警比例为 80%。

暂停恢复机制¶

监控器因告警缓存超限被系统暂停后，执行以下任一操作即可自动恢复：

修改查询条件并重新保存监控器
直接重新保存监控器

系统会自动清理告警缓存标记并恢复监控器正常运行，无需额外操作。