错误中心¶
观测云错误中心是帮助团队系统化追踪和管理应用错误的全栈解决方案。它能自动聚合来自性能监控、用户访问和日志中的错误信息,将海量离散报错归类为可管理的任务,并提供完整的分析处理流程。
什么是错误¶
在“错误中心”这一功能逻辑框架中,“错误”特指从 APM、RUM 及日志三类数据源中识别出的、具有明确错误特征(包括错误类型、错误信息和错误堆栈)的异常事件单元。这些原始的异常事件通过系统的标准化处理和智能指纹(fingerprint)计算,被聚合成唯一的“错误问题(Issue)”。聚合的关键在于系统能自动识别并过滤错误信息中的变量内容(如时间戳、用户 ID 等),确保相同逻辑根源的错误被准确归集到一起。
每个错误 Issue 拥有独立的生命周期状态管理,遵循从“待分配 (Triage)” 到“已解决 (Resolved)” 的标准流转流程,并关联完整的分析上下文(包括性能链路、用户会话、源码映射和日志指标)。
错误来源¶
错误中心统一管理来自三类数据源的报错信息:
-
应用性能监控(APM):捕获服务端的异常与错误,反映服务运行的健康状态,通常包含完整的服务调用堆栈
-
用户访问监控(RUM): 收集前端应用在用户设备上发生的错误,直接反映用户体验,并能通过 SourceMap 映射回源代码的具体位置
-
日志(Logs):涵盖系统或应用自身记录的错误信息
错误投递逻辑¶
错误中心采用智能聚合机制对错误数据进行统一管理。系统仅处理能够生成唯一标识(issue_id)的错误数据,该标识通过错误指纹和服务上下文组合生成,确保相同错误的持续跟踪。
错误聚合机制¶
系统通过以下步骤实现错误智能聚合:
1. 错误指纹生成
系统为每条错误生成唯一指纹标识(fingerprint):
-
APM:
错误类型(error_type)+ 错误信息(error_message)+ 错误堆栈(error_stack) -
RUM:
错误类型(error_type)+ 错误信息(error_message)+ 错误堆栈(error_stack) -
Logs (含
错误堆栈 error_stack):错误类型(error_type)+ 错误信息(error_message)+ 错误堆栈(error_stack) -
Logs (不含
错误堆栈 error_stack):错误类型(error_type)+ 错误信息(error_message)
错误指纹的生成以数据完整性为前提。APM、RUM、Logs 数据中必须包含以上路径的字段才会生成 fingerprint;若字段缺失,则跳过该条数据。
注意
-
在计算前,系统会执行标准化处理,自动识别并过滤错误信息(
error_message)中的变量内容(如时间戳、用户 ID 等),确保相同逻辑错误的指纹一致。 -
堆栈信息(
error_stack)会进行优化处理,仅保留关键业务调用行; -
系统会严格校验字段完整性,缺失必要字段的数据将被排除。
2. 错误问题标识
在错误指纹的基础上,系统会结合错误发生的上下文生成唯一的问题标识(issue_id),用于在错误中心内跟踪和管理该问题。具体生成逻辑如下:
- APM 错误:
服务(service)+ 指纹(fingerprint) - RUM 错误:
应用名(app_name)+ 指纹(fingerprint) - 日志错误:
服务(service)+ 指纹(fingerprint)
当系统首次为某个错误组合生成新的 issue_id 时,会自动在工作台中记录该问题的首次出现时间,并开始对其进行全生命周期的状态跟踪与聚合分析。
错误数据存储¶
错误数据存储在独立命名空间,与原始数据隔离,默认保留 90 天(❗️暂不支持自定义)。每个工作空间每日新增错误问题上限为 10,000 条。
开始使用前提¶
错误中心采用配置驱动的形式。使用前,您需要创建投递规则来明确指定要监控的数据范围(具体日志索引、APM 服务或 RUM 应用)。配置完成后,系统将仅对这些选定数据源产生的错误进行智能分析和聚合处理。