跳转至

区间检测 V2


当前文档定位

本文档为检测规则配置流程中的第二步。配置完成后,请返回主文档继续第三步:事件通知

数据范围:指标(M)、链路(T)、用户访问数据(R

V2 版本的区间检测利用历史数据构建置信区间,预测正常波动范围。系统对比当前数据特征与历史数据,判断是否超出置信区间,以此识别异常并触发警报,保障数据稳定性和安全性。

主要特点:

  • 深入分析:基于历史数据构建置信区间预测正常波动;
  • 持续更新:由观测云算法团队持续更新,提升数据处理能力。

概念先解

置信区间范围(confidence_interval:是衡量时序数据在特定检测范围内波动容忍度的指标,取值在 1% 至 100% 之间。

  • 数据波动性大、随机性强时,可适当增大该值;
  • 数据波动规律时,可减小该值。

如果:

  • 置信区间过大,上下边界变宽,会减少异常点检测数量;
  • 置信区间过小,则可能检测出过多异常值;
  • 置信区间过大,又可能无法检测到任何异常。

因此,根据数据的波动特性合理调整该参数,对平衡异常检测的灵敏度和准确性至关重要,能有效避免过度误报或漏报异常情况。

检测配置

检测频率

设置执行检测的时间周期。

  • 固定频率:10 分钟(不可更改)

检测指标

基于 DQL 定义检测数据源及聚合方式。

配置项 说明
工作空间 默认当前空间,可切换至其他授权空间。授权后,可使用当前账号下其他工作空间的检测指标来创建监控器
数据类型 当前检测的数据类型,包括指标、APM(链路)、RUM(用户访问数据)
指标集 当前检测指标所在的指标集
指标 当前检测所针对的指标
聚合算法 支持 Avg by(平均值)、Min by(最小值)、Max by(最大值)、Sum by(求和)、Last(最后一个值)、First by(第一个值)、Count by(数据点数)、Count_distinct by(非重复数据点数)、p50(中位数)、p75(75% 位置值)、p90(90% 位置值)、p99(99% 位置值)
检测维度 配置数据中对应的字符串类型(keyword)字段均可作为检测维度选择,目前最多支持选择三个字段。通过多个检测维度的字段组合,可以确定一个具体的检测对象(如 {host: host1, host_ip: 127.0.0.1}
筛选条件 基于指标的标签对检测数据进行筛选,限定检测范围。支持添加一个或多个标签筛选,同时支持模糊匹配和模糊不匹配的筛选条件
别名 自定义检测指标名称
查询方式 支持简单查询表达式查询

触发条件

配置各告警级别(致命、严重、重要、警告)的触发条件,以及正常恢复条件。

配置项 说明
突变方向 选择数据异常方向:

  • 向上或向下:数据升高或降低均触发
  • 向上:仅数据升高触发
  • 向下:仅数据降低触发
  • 置信区间上下界范围 设置置信区间宽度(1-100%)。预测置信区间范围的宽度,如果波动比较大的指标可以适当提高置信区间宽度避免误报
    致命/严重/重要/警告 当 Result >= [值] % 时触发。比较突变异常的数据点占比,不在配置范围内则触发事件
    正常 [N] 次检测无事件产生。检测规则生效后,若在配置的自定义检测次数内,数据检测结果由异常恢复正常,则触发恢复告警事件

    大批量告警保护

    默认开启。当单次检测产生的告警数量超过预设阈值(100)时,系统自动启用按状态汇总策略,暂停逐个对象的聚合与静默流程,按状态生成并推送摘要事件,在确保通知时效性的同时,显著降低噪声并规避处理超时风险。当此开关开启,后续监控器检测到异常后产生的此类事件详情中不会展示历史记录和关联事件。

    注意

    恢复告警事件不受告警沉默限制。若未设置恢复告警事件检测次数,则告警事件不会恢复,且一直会出现在事件 > 未恢复事件列表 中。

    数据断档

    当检测指标在检测区间内查询结果为空时的处理策略:

    选项 说明
    不触发事件 联动检测区间的时间范围,根据检测指标在最近若干分钟内的查询结果,判断是否生成事件
    查询结果视为 0 联动检测区间的时间范围,将检测指标在最近若干分钟内的查询结果视为 0,并重新与上方触发条件中配置的阈值进行比较,以判断是否触发异常事件
    自定义填充并触发事件 支持自定义填充检测区间值,并分别触发以下事件类型:数据断档事件、紧急事件、重要事件、警告事件及恢复事件。

    选择此策略时,建议自定义的数据断档时间配置 ≥ 检测区间的时间间隔;若配置时间 ≤ 检测区间时间间隔,可能会出现数据断档与异常同时满足的情况,此时将优先应用数据断档处理结果

    信息生成

    开启此选项后,系统会将所有未匹配到上述触发条件的检测结果,以“信息”事件的形式进行写入。

    同时配置触发条件、数据断档、信息生成时,按照如下优先级判断触发:数据断档 > 触发条件 > 信息事件生成

    后续配置

    完成上述检测配置后,请继续配置:

    1. 事件通知:定义事件标题、内容、通知成员、数据断档处理及关联故障;
    2. 告警配置:选择告警策略,设置通知对象和静默周期;
    3. 关联:关联仪表板,便于快速跳转查看数据;
    4. 权限:设置操作权限,控制谁可以编辑/删除此监控器。

    文档评价

    文档内容是否对您有帮助? ×