跳转至

应用性能监测


应用性能监测(APM)是观测云以分布式链路追踪为核心构建的全栈性能分析解决方案。其遵循 OpenTracing 等标准化协议,通过在主机层部署统一采集代理,实现追踪数据、基础设施指标与应用日志的平台级关联分析,达成从代码到资源的全链路可观测性。

核心架构:采用单主机单代理架构。在每台应用服务器上部署 DataKit 作为统一数据采集器。

核心功能

服务观测

  1. 服务清单:管理所有已接入应用服务的核心界面,提供服务资产与状态总览,支持从服务条目一键跳转至关联的概览、资源调用、基础设施依赖、链路追踪、日志查询等深度分析仪表板

  2. 服务拓扑:通过拓扑图直观查看各服务间的调用关系,支持查看请求数、错误率、平均响应时间、P99/P95 响应时间和最大响应时间等关键指标

  3. 服务详情:查看服务上下游、服务概览、关联的日志和链路,展示指标(服务请求响应时间、错误请求分布)和日志(错误日志数)的异常趋势图

  4. 性能指标:基于服务类型、环境、版本、项目和服务名称快捷筛选服务性能

链路

  1. 链路查看器:搜索、筛选、导出链路数据,支持强大的搜索功能任意筛选查看任意时间的链路数据,快速发现异常链路

  2. 链路详情页:通过火焰图、Span 列表、瀑布图等工具对链路性能进行全面分析,无论是同步还是异步调用,都能清晰追踪每一个链路性能的数据细节

错误追踪

错误追踪查看器:针对分布式链路中产生的各类错误,提供聚合分析与追踪能力,支持查看特定错误类型的历史产生趋势及其在不同服务、接口或实例上的分布情况

性能剖析

Profiling 查看器:通过火焰图等深度性能剖析工具,对应用运行时的 CPU 使用、方法耗时等进行可视化分析

链路关联 Profiling:将应用层的性能瓶颈(如慢调用、高耗时方法)与底层基础设施的资源消耗情况进行关联分析

分析看板

分析看板:聚合展示应用性能的核心分析数据,主要包含链路统计(Span 与请求量及错误)、关联异常(错误日志)、深度性能分析(响应耗时、调用数、服务请求分布等)以及资源与异常关联

监控告警

应用性能指标检测:对链路上的性能数据进行基于规则的匹配与筛选,定义具体的检测条件(如响应时间超过阈值、出现特定错误),从全量链路数据中识别并筛选出符合异常条件的请求

存储计费

系统统计当前空间下 trace_id 的数量,采用梯度计价。

具体计费规则与数据存储策略(如保留时长)可单独配置。可参考 数据存储策略

更多计费规则,可参考 计费方式

文档评价

文档内容是否对您有帮助? ×