错误追踪¶
观测云提供应用性能监测错误数据分析查看器,您可以在应用性能监测 > 错误追踪快速查看链路中的类似错误的产生历史趋势及其分布情况,帮助快速定位性能问题。
错误追踪查看器包括所有错误和聚类分析两个列表:
观测云查看器提供强大的查询和分析功能,可参考 查看器说明。
所有错误¶
在观测云工作空间应用性能监测 > 错误追踪,选择所有错误列表,即可查看和分析所有链路的错误数据。
注意:所有错误的数据统计的是基于错误状态 status=error
,且含有错误类型 error_type
字段的 Span。
关联分析¶
在错误追踪查看器,您可以通过点击任意错误查看对应的错误链路详情,包括服务、错误类型、错误内容、错误分布图、错误详情、链路详情、扩展属性以及关联的日志、主机、网络等。
聚类分析¶
若您需要查看发生频次较高的错误,可以在观测云工作空间应用性能监测 > 错误追踪,选择聚类分析列表。
聚类分析是对所有错误的链路数据基于聚类字段进行相似度计算分析,根据右上方选择的时间范围固定当前时间段,并获取该时间段内 10000 条数据进行聚类分析,将近似度高的错误链路进行聚合,提取并统计共同的 Pattern 聚类,帮助快速发现异常链路和定位问题。
默认根据 error_message
字段进行聚合,可自定义输入聚类字段,最多可输入 3 个。
聚类分析详情¶
- 在聚类分析列表,您可以通过点击任意错误查看所有关联的错误链路,点击链路即可进入错误链路详情页查看分析;
- 聚类分析页面中,点击排序 icon & ,您可对文档数量升/降序排序(默认倒序)。
- 如果需要导出某条数据,打开该条数据详情页,点击右上角 图标即可。
Issue 自动发现¶
基于观测云对 APM 错误追踪进行监测而产生的数据,当您启用 Issue 自动发现这一配置后,系统会根据不同的分组维度统计对应异常数据,并对后续类似问题的产生进行堆栈跟踪,自动浓缩,最终产生 Issue。通过该入口产生的 Issue 会帮助您直观获取问题产生的上下文和根因,大量减少解决问题的平均时间。
开始配置¶
注意:在启用该配置之前,需先配置规则。否则不支持启用。
数据来源:即当前配置页面的启用入口。
组合维度:基于配置字段内容组合进行归类统计,包含 service
、version
、resource
、error_type
。
针对数据来源,您可以添加筛选条件来过滤数据,观测云会针对符合条件的数据进一步作查询,缩小可用数据的范围。
检测频率:观测云会根据您选择的频率来查询数据的时间范围,包含 5 分钟、10 分钟、15 分钟、30 分钟和 1 小时。
Issue 定义:启用该配置后,Issue 将以此处的定义对外呈现。为避免信息缺失,需依次填写。
其中,在 Issue 的标题和描述两处,均支持使用以下模版变量:
变量 | 含义 |
---|---|
count |
统计数量 |
service |
服务名称 |
version |
版本 |
resource |
资源名称 |
error_type |
错误类型 |
error_message |
错误内容 |
error_stack |
错误堆栈 |
查看 Issue¶
保存配置并启用后,由系统自动发现并产生的 Issue 会在控制台 > 异常追踪处显示。