跳转至

应用性能监测


应用性能监测(APM)是观测云以分布式链路追踪为核心构建的全栈性能分析解决方案。其遵循 OpenTracing 等标准化协议,通过在主机层部署统一采集代理,实现追踪数据、基础设施指标与应用日志的平台级关联分析,达成从代码到资源的全链路可观测性。

核心架构

采用单主机单代理架构。在每台应用服务器上部署 DataKit 作为统一数据采集器。

数据采集

数据经本机 DataKit 处理后,统一上报至观测云平台进行统一的存储与关联计算。

  • 链路追踪数据:接收并处理通过 OpenTelemetry、Jaeger 等标准协议上报的分布式调用链数据;

  • 基础设施指标:主动采集主机层的 CPU 使用率、内存占用、磁盘 I/O 及网络流量等资源指标;

  • 应用日志:实时采集应用的标准输出、指定的日志文件以及操作系统日志。

核心功能

  • 服务清单与拓扑关系查看


    提供完整的应用服务清单,集中展示所有服务的核心性能指标与实时运行状态。支持可视化呈现服务间的实时调用关系与依赖拓扑图,并监控包括在线服务数量、P90 服务响应耗时、服务最大影响耗时在内的关键全局指标,帮助掌控服务架构全景

  • 全链路追踪


    基于分布式链路追踪技术,提供端到端的全路径请求追踪。通过内置的火焰图、Span 列表、瀑布图等工具,对所有采集上报的链路数据进行查询、可视化展示与深度分析,实现从应用接口到代码方法级别的性能剖析与故障点精确定位

  • 错误追踪


    针对分布式链路中产生的各类错误,提供聚合分析与追踪能力。支持查看特定错误类型的历史产生趋势及其在不同服务、接口或实例上的分布情况,快速定位错误根源,提升排障效率

  • 分析看板


    分析看板聚合展示应用性能的核心分析数据,主要包含链路统计(Span 与请求量及错误)、关联异常(错误日志)、深度性能分析(响应耗时、调用数、服务请求分布等)以及资源与异常关联

  • Profiling


    通过火焰图等深度性能剖析工具,对应用运行时的 CPU 使用、方法耗时等进行可视化分析。将应用层的性能瓶颈(如慢调用、高耗时方法)与底层基础设施的资源消耗情况(如 CPU 使用率)进行关联分析,精准定位性能问题的根本原因

  • 应用性能指标检测


    支持通过配置应用性能监控器,对链路上的性能数据进行基于规则的匹配与筛选。您可以定义具体的检测条件(如响应时间超过阈值、出现特定错误),系统将据此从全量链路数据中识别并筛选出符合异常条件的请求,实现对特定性能问题的精准发现与告警

存储计费

系统统计当前空间下 trace_id 的数量,采用梯度计价。

具体计费规则与数据存储策略(如保留时长)可单独配置。可参考 数据存储策略

更多计费规则,可参考 计费方式

文档评价

文档内容是否对您有帮助? ×