错误追踪¶
错误追踪查看器集中分析应用性能监测(APM)中的错误数据。通过它,您可以:
-
查看错误历史趋势:通过排行榜、时序图等图表观察特定错误类型或来源随时间发生的频率变化曲线;
-
分析错误分布: 快速定位高频错误源,例如服务错误率、资源端点错误率;
-
聚合类似错误:自动将具有相同异常堆栈或相似错误特征的错误请求归类,避免重复查看单条链路;
- ......
数据展示¶
错误追踪查看器基于列表和图表的形式,提供多种专业分析视图。
列表¶
展示当前工作空间内 APM 错误的详细记录和聚合结果,包括发生时间、错误类型、错误信息、关联服务和资源等。
列表模式下,提供两种分析模式:
所有错误¶
记录所有标记为错误(status=error
)且包含错误类型(error_type
)的 Span,最终查看所有符合条件的错误记录。
数据详情¶
在错误追踪查看器中,点击任意错误可查看其链路详情,包含服务、错误类型、内容、分布图、详情、链路详情、扩展属性及关联的日志、主机、网络等信息。
Obsy AI 错误分析¶
观测云提供一键解析错误数据的能力。其利用大模型自动提取数据中的关键信息,并结合在线搜索引擎和运维知识库,快速分析可能的故障原因并提供初步解决方案。
- 点击单条数据,展开详情页;
- 点击右上角 “Obsy AI 错误分析”;
- 自动开始异常分析。
聚类分析¶
自动分组相似错误并识别高频模式,展示选定时间范围内的前 10,000 条错误 Span 信息。基于聚类字段对错误链路数据进行相似度计算,提取共同模式,帮助快速发现异常链路并定位问题。
默认根据 error_message
字段进行聚合,可自定义输入聚类字段,最多可输入 3 个。
聚类分析详情¶
在聚类分析列表中,点击任意错误可查看所有关联链路。
在关联链路页面,您可对文档数量进行升/降序排序(默认倒序)。
再次点击关联链路某条数据,可进入详情页。您可进行以下操作:
- 查看错误发生的主机和服务、错误分布等信息;
- 点击详情页右上角 图标,可导出当前数据;
- 对当前错误详情进行 AI 智能分析;
- 点击跳转至当前错误详情关联链路。
图表¶
基于 count
、last
、first
、count_distinct
运算模式,以图表形式在 by
条件下筛选数据。包含以下图表,可按需选择:
- 排行榜
- 时序图
- 饼图
- 矩形树图
- 分组表格图
Issue 自动发现¶
启用 “Issue 自动发现”配置后,系统依据不同分组维度统计异常数据,并对后续相似问题进行堆栈跟踪与自动浓缩,最终生成 Issue。通过该入口产生的 Issue 会帮助您快速获取问题的上下文及根源,有效缩短问题解决时间。
开始配置¶
注意
在启用该配置之前,需先配置规则。否则不支持启用。
-
数据来源:即当前配置页面的启用入口;
-
组合维度:依据配置字段内容组合归类统计,包含
service
、version
、resource
、error_type
;- 针对数据来源,可添加筛选条件过滤数据,系统会对符合条件的数据进一步查询,缩小数据范围。
-
检测频率:系统根据所选频率确定查询数据的时间范围,选项包括 5 分钟、10 分钟、15 分钟、30 分钟和 1 小时;
-
Issue 定义:启用此配置后,Issue 将按此处定义呈现。为防止信息缺失,需依次填写。
- 其中,在 Issue 的标题和描述两处,均支持使用以下模版变量:
变量 含义 count
统计数量 service
服务名称 version
版本 resource
资源名称 error_type
错误类型 error_message
错误内容 error_stack
错误堆栈
保存配置并启用后,由系统自动发现并产生的 Issue 会在异常追踪处显示。