跳转至

基础设施


观测云统一监控支撑应用程序运行的所有底层计算资源。包括但不限于:

  • 物理机与虚拟机
  • 容器与 Kubernetes 集群
  • 网络设备与服务
  • 各类云服务

观测云通过 DataKit 统一采集主机、容器、云服务等基础设施的指标、日志与对象数据,并自动构建组件之间的动态依赖关系,形成可视化的基础设施拓扑。该拓扑清晰呈现服务、容器、宿主机等资源的实际运行位置与关联状态,为用户提供从全局到细粒度的运行洞察。

基于统一标签体系与灵活的检索能力,平台支持用户快速定位目标资源,并可将来自不同来源的指标、链路、日志等数据进行关联。通过跨数据类型的平滑跳转与上下文联动,用户能够迅速追踪问题根因,实现高效故障排查与性能优化。

功能模块

模块 监控对象 核心能力
主机 物理机、虚拟机、云服务器 实时采集 200+ 系统级指标,覆盖 CPU steal time、内存 swap activity、磁盘 IOPS 等深度性能数据
容器 Docker、Kubernetes 核心资源 自动构建集群资源拓扑图,实时监控 Pod 生命周期状态及资源配额使用率
进程 主机运行进程 深度监控进程级资源消耗,建立进程与业务的关联关系
数据库 MySQL、Redis、PostgreSQL 等 无侵入采集数据库性能指标,实时监控 QPS、连接数、慢查询等
网络 主机与容器网络流量 基于 eBPF 技术实现网络流量无侵入采集,监控 TCP 重传、连接异常等指标
资源目录 云资源、自定义资源 自动集成云商 API,统一监控 RDS、负载均衡器等托管服务

使用前提

使用基础设施监控前,请确保已完成以下步骤:

  1. 注册并登录至观测云工作空间;
  2. 在目标主机上安装 DataKit
  3. 根据监控需求开启对应采集器

核心概念

对象(O):对象是基础设施中的实体资源,如主机、容器、Pod、进程等。对象数据包含资源属性、状态及关联关系,通过对象数据可掌握资源的配置信息与运行状态。

关于指标、标签、时间线等概念的详细说明,可参考 指标

数据展示

基础设施数据通过查看器进行可视化展示,支持以下分析维度:

  • 列表视图:展示对象实时状态,支持排序、筛选、自定义显示列
  • 蜂窝图:可视化呈现资源集群动态拓扑结构,支持跨层级钻取
  • 排行榜/饼图/矩形树图:基于分组统计的数据分布分析
  • 详情页:展示对象完整属性、指标趋势、关联数据及绑定视图

开始使用

主机监控

实时采集 200+ 系统级指标,覆盖 CPU steal time、内存 swap activity、磁盘 IOPS 等深度性能数据。

安装 DataKit 后,系统自动开启一批主机相关采集器,自动上报数据至工作空间。

默认开启的采集器列表如下:

采集器名称 功能描述
cpu 主机 CPU 使用情况
disk 磁盘占用情况
diskio 主机磁盘 IO 情况
mem 主机内存使用情况
swap Swap 内存使用情况
system 主机操作系统负载
net 主机网络流量情况
host_process 主机进程列表及资源占用情况(默认采集存活超过 10 分钟的进程)
hostobject 主机基础信息(操作系统、硬件信息等)
container 主机容器或 Kubernetes 数据(若主机无容器,采集器自动退出)

更多详情,可参考 DataKit 采集器使用主机对象

容器与 Kubernetes

自动构建集群资源拓扑图,实时监控 Pod 生命周期状态及资源配额使用率,精准追踪 HPA 弹性伸缩效率,有效预警因资源不足导致的容器重启事件。

观测云提供两种开启容器数据采集的方式:

  1. 主机安装 DataKit:开启容器采集器,支持采集 Containers 和 Pods 数据
  2. DaemonSet 方式安装 DataKit:支持采集 Kubernetes 全量资源数据(Containers、Pods、Services、Deployments、Nodes 等),自动构建集群拓扑

进程监控

深度监控进程级资源消耗,建立进程与业务的关联关系,支持从异常进程快速下钻至对应的应用性能链路和日志数据。

系统默认开启进程采集器,采集最近 10 分钟内的进程数据。如需采集进程指标数据(CPU、内存等),进入 DataKit 安装目录下的 conf.d/host 文件夹,复制 host_processes.conf.sample 并重命名为 host_processes.conf,将 open_metric 设置为 true 后重启 DataKit。

更多详情,可参考 进程

数据库监控

通过无侵入方式自动采集主流数据库性能指标,涵盖 MySQL、Redis、PostgreSQL 等常见数据库类型,实时监控 QPS、连接数、慢查询等关键性能数据。

网络监控

基于 eBPF 技术实现网络流量的无侵入采集,全面监控 TCP 重传、连接异常等网络性能指标,通过实时拓扑可视化服务依赖关系。

资源目录

自动集成云商 API,统一监控 RDS、负载均衡器等托管服务,关联云商账单数据,实现成本与性能的双重管控。

通过创建自定义资源,结合 DataKit API 和 DataFlux Func,向观测云上报任意数据,包括云厂商云资源数据、企业业务数据等。

具体操作过程,可参考 资源目录数据上报

关联功能

  1. 监控:基于基础设施指标配置基础设施存活检测阈值检测等监控器

  2. 指标:查看基础设施指标集详情,配置生成指标

  3. 日志:关联分析主机与容器的日志数据

  4. 应用性能监测:从基础设施下钻至应用链路追踪

文档评价

文档内容是否对您有帮助? ×