跳转至

错误追踪


错误追踪查看器集中分析应用性能监测(APM)中的错误数据。通过它,您可以:

  • 查看错误历史趋势:通过排行榜、时序图等图表观察特定错误类型或来源随时间发生的频率变化曲线;

  • 分析错误分布: 快速定位高频错误源,例如服务错误率、资源端点错误率;

  • 聚合类似错误:自动将具有相同异常堆栈或相似错误特征的错误请求归类,避免重复查看单条链路;

  • ......

数据展示

错误追踪查看器基于列表和图表的形式,提供多种专业分析视图。

列表

展示当前工作空间内 APM 错误的详细记录和聚合结果,包括发生时间、错误类型、错误信息、关联服务和资源等。

列表模式下,提供两种分析模式:

所有错误

记录所有标记为错误(status=error)且包含错误类型(error_type)的 Span,最终查看所有符合条件的错误记录。

数据详情

在错误追踪查看器中,点击任意错误可查看其链路详情,包含服务、错误类型、内容、分布图、详情、链路详情、扩展属性及关联的日志、主机、网络等信息。

在错误详情页的错误分布图中,基于 error_messageerror_type 字段,聚合统计相似度高的错误链路,并依时间范围自动选择时间间隔,呈现错误分布趋势。

展示错误详情信息。

展示当前错误链路服务下的字段信息。

Obsy AI 错误分析

观测云提供一键解析错误数据的能力。其利用大模型自动提取数据中的关键信息,并结合在线搜索引擎和运维知识库,快速分析可能的故障原因并提供初步解决方案。

  1. 点击单条数据,展开详情页;
  2. 点击右上角 “Obsy AI 错误分析”;
  3. 自动开始异常分析。

聚类分析

自动分组相似错误并识别高频模式,展示选定时间范围内的前 10,000 条错误 Span 信息。基于聚类字段对错误链路数据进行相似度计算,提取共同模式,帮助快速发现异常链路并定位问题。

默认根据 error_message 字段进行聚合,可自定义输入聚类字段,最多可输入 3 个。

聚类分析详情

在聚类分析列表中,点击任意错误可查看所有关联链路。

在关联链路页面,您可对文档数量进行升/降序排序(默认倒序)。

再次点击关联链路某条数据,可进入详情页。您可进行以下操作:

  • 查看错误发生的主机和服务、错误分布等信息;
  • 点击详情页右上角 图标,可导出当前数据;
  • 对当前错误详情进行 AI 智能分析
  • 点击跳转至当前错误详情关联链路。

图表

基于 countlastfirstcount_distinct 运算模式,以图表形式在 by 条件下筛选数据。包含以下图表,可按需选择:

  • 排行榜
  • 时序图
  • 饼图
  • 矩形树图
  • 分组表格图

Issue 自动发现

启用 “Issue 自动发现”配置后,系统依据不同分组维度统计异常数据,并对后续相似问题进行堆栈跟踪与自动浓缩,最终生成 Issue。通过该入口产生的 Issue 会帮助您快速获取问题的上下文及根源,有效缩短问题解决时间。

开始配置

注意

在启用该配置之前,需先配置规则。否则不支持启用。

  1. 数据来源:即当前配置页面的启用入口;

  2. 组合维度:依据配置字段内容组合归类统计,包含 serviceversionresourceerror_type

    • 针对数据来源,可添加筛选条件过滤数据,系统会对符合条件的数据进一步查询,缩小数据范围。
  3. 检测频率:系统根据所选频率确定查询数据的时间范围,选项包括 5 分钟、10 分钟、15 分钟、30 分钟和 1 小时;

  4. Issue 定义:启用此配置后,Issue 将按此处定义呈现。为防止信息缺失,需依次填写

    • 其中,在 Issue 的标题描述两处,均支持使用以下模版变量:
    变量 含义
    count 统计数量
    service 服务名称
    version 版本
    resource 资源名称
    error_type 错误类型
    error_message 错误内容
    error_stack 错误堆栈

保存配置并启用后,由系统自动发现并产生的 Issue 会在异常追踪处显示。

更多阅读

文档评价

文档内容是否对您有帮助? ×