智能监控¶
智能监控对于业务分析、用户行为的分析、以及出现故障的根因分析能力,提供了一套快速定位异常节点的机制。适用于业务类指标、波动性比较强的指标。通过分析场景构建对多维指标做关键维度的定位;在定位到业务的维度范围后,围绕着微服务中服务的调用,服务的资源依赖,快速定位分析异常。
通过多种智能检测规则配置监控。设置检测范围和通知人,基于智能检测算法,识别异常数据并预测未来走势。
注意:区别于传统的监控模式,智能监控无需配置检测阈值及触发规则,只需设定检测范围及通知人即可一键开启监控,通过智能算法识别定位异常,支持异常区间的分析与报告。
工作空间的智能监控器可通过观测云平台的智能监控进行查看和管理。
使用须知¶
数据存储
1、由于数据转存的需要,开启日志、应用智能检测后会生成新的时间线数量,即当前监控配置过滤条件所过滤的检测维度数量(Service、Source) * 检测指标数量(前提:指标为有效值)。
智能监控检测指标:
- 日志智能检测:错误日志数(
error_log_count
)、日志数(log_count
); - 应用智能检测:P90 耗时(
p90
)、错误请求数(error_request_count
)、请求数(request_count
)。
2、为了减少开销,日志、应用智能检测转写时间线采取了最小存储逻辑,只保留检测维度、指标集名称及检测指标,不对监控器的过滤条件进行储存,所以鉴于当前存储转写逻辑,如果发生监控器过滤条件配置修改的情况,会生成新的时间线,所以修改监控器过滤条件配置当日可能会出现时间线重复计费的情况,修改后即刻生效。
3、为了提高算法精度达到最好的检测效果,开启智能监控前请将指标存储周期置为最长 30 天(默认配置为 7 天)。
4、如需查看日志、应用智能检测转存的指标数据(Metric),可前往当前监控告警事件 > 扩展字段 > df_event_report
> 报告内容 > smart_monitor_metric:smart_apm_ff5cf0ea792f4bac72ca1afdcd431c82
。
算法说明:智能监控采用基于时序的异常 ADTK 库的算法。
该监控系统将时间序列值与其前一时间窗口的值进行比较,如果某个值相较于其前期的平均值或中位数发生异常大的变化,那么这个时间点就被识别为异常。同时,系统会根据过去的数据来计算当前检测维度的预期正常范围。这个预期范围是基于一天中的时间以及一周中的某一天来确定的。通过这种方式,系统可以验证数据检测到的异常是否真实有效。
规则类型¶
目前观测云支持多种智能检测规则,不同的规则覆盖不同的数据范围。
规则名称 |
数据范围 |
基本描述 |
---|---|---|
主机智能检测 | 指标(M) | 通过智能算法自动检测主机,发现主机 CPU、内存异常情况。 |
日志智能检测 | 日志(L) | 通过智能算法自动检测日志中的异常,检测指标包含日志数量,错误日志数。 |
应用智能检测 | 链路(T) | 通过智能算法自动检测应用中的异常,检测指标包含应用请求数量,错误请求数,以及请求延迟。 |
用户访问智能检测 | 用户访问数据(R) | 通过智能算法自动检测网站/APP 中的异常,包含页面性能分析,错误分析,相关检测指标有 LCP、FID、CLS、Loading Time等。 |
Kubernetes 智能检测 | 指标(M) | 通过智能算法自动检测 Kubernetes 中的异常,检测指标包含 Pod 总数,Pod 重启,Api QPS 等。 |
云账单智能监控 | 云账单(B) | 通过智能算法自动检测不同云厂商中的账号账单费用异常,检测指标包含账单费用。 |
开始配置¶
计费说明¶
主机、日志、应用智能检测频率每 10 分钟执行一次,每执行一次检测计算为 10 次调用费用;用户访问智能检测每执行一次检测计算为 100 次调用费用。
更多详情,可查看 任务调用。