应用性能指标检测¶
当前文档定位
本文档为检测规则配置流程中的第二步。配置完成后,请返回主文档继续第三步:事件通知。
数据范围:链路(T),用于监控工作空间内 APM 的关键指标数据。系统统计规定时间内符合条件的链路数量,当超出自定义阈值时触发产生异常事件。
检测配置¶
检测频率¶
设置执行检测的时间周期。
-
预设选项:1 分钟、5 分钟、10 分钟、15 分钟、30 分钟、1 小时
-
Crontab 模式:点击“切换到 Crontab 模式”可配置自定义周期,支持基于秒、分钟、小时、天、月、周等周期配置定时任务执行情况。
检测区间¶
设置每次检测查询的数据时间范围(❗️检测区间应大于等于检测频率,且需与数据实际上报周期匹配,避免漏检或误报)。
| 检测频率 | 检测区间(下拉可选项) |
|---|---|
| 30s | 1m/5m/15m/30m/1h/3h |
| 1m | 1m/5m/15m/30m/1h/3h |
| 5m | 5m/15m/30m/1h/3h |
| 15m | 15m/30m/1h/3h/6h |
| 30m | 30m/1h/3h/6h |
| 1h | 1h/3h/6h/12h/24h |
| 6h | 6h/12h/24h |
| 12h | 12h/24h |
| 24h | 24h |
- 自定义格式:自定义输入检测区间,如:
20m(最近 20 分钟)、2h(最近 2 小时)、1d(最近 1 天)。
检测指标¶
设置检测数据的指标,支持两种检测模式:
-
服务指标
-
链路统计
注意
请避免选择高基数字段作为检测维度。如果配置不当,触发条件过于宽松,可能会引发频繁告警。当前查询最大返回数量为 10 万条记录。
服务指标¶
对当前工作空间内的应用性能监测服务进行监控。
| 配置项 | 说明 |
|---|---|
| 服务 | 选择当前工作空间内的 APM 服务,支持选择“全部”或指定服务 |
| 指标 | 具体的检测指标,包括:请求数、错误请求数、请求错误率、平均每秒请求数、平均响应时间、P50 响应时间、P75 响应时间、P90 响应时间、P99 响应时间 |
| 筛选条件 | 基于指标的标签对检测数据进行筛选,限定检测范围。支持添加一个或多个标签筛选,同时支持模糊匹配和模糊不匹配的筛选条件 |
| 检测维度 | 配置数据中对应的字符串类型(keyword)字段均可作为检测维度选择,目前最多支持选择三个字段。通过多个检测维度的字段组合,可以确定一个具体的检测对象(如 {service: svc1, host: host1}) |
| 附加信息 | 选择需要附加展示的字段信息,用于丰富事件内容 |
链路统计¶
统计在规定时间内符合条件的链路(Span)数量,当超出自定义阈值时触发异常事件,可用于服务链路异常错误的通知。
| 配置项 | 说明 |
|---|---|
| 来源 | 选择需要统计的链路数据来源(服务),支持输入关键字筛选 |
| 筛选条件 | 通过标签过滤链路 span 以限定检测的数据范围。支持添加一个或多个标签筛选条件 |
| 聚合算法 | 默认选中"*",对应的聚合函数为 count(统计 Span 数量)。若选中其他字段,则聚合函数自动变为 count distinct(取关键字出现的数据点数,即去重统计) |
| 检测维度 | 配置数据中对应的字符串类型(keyword)字段均可作为检测维度选择,目前最多支持选择三个字段。通过多个检测维度的字段组合,可以确定一个具体的检测对象 |
触发条件¶
配置触发条件及严重程度。当查询结果为多个值时,任一值满足触发条件则产生事件。
支持配置致命、严重、重要、警告四级阈值,以及正常恢复条件。
| 等级 | 配置 | 说明 |
|---|---|---|
| 致命 | 当 Result >= [值] |
最高等级告警,需立即处理 |
| 严重 | 当 Result >= [值] |
高等级告警,需优先处理 |
| 重要 | 当 Result >= [值] |
中等级告警,需关注 |
| 警告 | 当 Result >= [值] |
低等级告警,需留意 |
| 正常 | [N] 次检测无事件产生 |
若检测指标触发了“致命”、“严重”、“重要”、“警告”异常事件,之后连续 N 次检测都正常,则产生“正常”事件。用于判定异常事件是否恢复正常,建议配置 |
更多详情,可参考 事件等级说明。
高级选项¶
连续触发判断¶
开启后,持续满足触发条件时才产生事件,避免瞬时波动误报(❗️最大配置上限为 10 次)。
大批量告警保护¶
系统默认开启。
当单次检测产生的告警数量超过预设阈值时,系统会自动切换到按状态汇总策略:不再逐个处理告警对象,而是根据事件状态生成少量摘要告警并进行推送。
这样既能确保通知的及时性,又能显著减少告警噪声,避免因处理过多告警而导致超时风险。
当此开关开启,后续监控器检测到异常后产生的此类事件详情中不会展示历史记录和关联事件。
恢复条件¶
配置恢复条件及严重程度。当查询结果为多个值时,任意一值满足触发条件则产生恢复事件。
针对不同等级设置独立的恢复阈值,实现降级恢复。例如:严重告警需在数值降至 70 以下恢复,而重要告警在 80 以下即可恢复。
默认恢复逻辑
未开启分级恢复条件配置时,默认当检测结果不满足触发条件时自动恢复。
数据断档¶
当检测指标在检测区间内查询结果为空时的处理策略:
| 选项 | 说明 |
|---|---|
| 不触发事件(默认) | 无数据时不产生告警,适用于允许数据缺失的场景 |
| 查询结果视为 0 | 将空数据视为 0 值进行阈值判定 |
| 触发数据断档事件 | 无数据时视为异常,触发数据断档事件 |
| 触发致命事件 | 无数据时触发致命等级事件 |
| 触发严重事件 | 无数据时触发严重等级事件 |
| 触发重要事件 | 无数据时触发重要等级事件 |
| 触发警告事件 | 无数据时触发警告等级事件 |
| 触发恢复事件 | 无数据时触发恢复事件 |
同时配置触发条件、数据断档、信息生成时,按照如下优先级判断触发:数据断档 > 触发条件 > 信息事件生成。
即:先判断是否断档,再判断是否触发阈值,最后判断是否生成信息事件。
信息生成¶
开启此选项后,系统会将所有未匹配到上述触发条件的检测结果,以“信息”事件的形式进行写入。
适用于需要记录正常状态变化或低优先级信息的场景。
后续配置¶
完成上述检测配置后,请继续配置: