基础设施¶
观测云统一监控支撑应用程序运行的所有底层计算资源。包括但不限于:
- 物理机与虚拟机
- 容器与 Kubernetes 集群
- 网络设备与服务
- 各类云服务
观测云通过 DataKit 统一采集主机、容器、云服务等基础设施的指标、日志与对象数据,并自动构建组件之间的动态依赖关系,形成可视化的基础设施拓扑。该拓扑清晰呈现服务、容器、宿主机等资源的实际运行位置与关联状态,为用户提供从全局到细粒度的运行洞察。
基于统一标签体系与灵活的检索能力,平台支持用户快速定位目标资源,并可将来自不同来源的指标、链路、日志等数据进行关联。通过跨数据类型的平滑跳转与上下文联动,用户能够迅速追踪问题根因,实现高效故障排查与性能优化。
功能模块¶
| 模块 | 监控对象 | 核心能力 |
|---|---|---|
| 主机 | 物理机、虚拟机、云服务器 | 实时采集 200+ 系统级指标,覆盖 CPU steal time、内存 swap activity、磁盘 IOPS 等深度性能数据 |
| 容器 | Docker、Kubernetes 核心资源 | 自动构建集群资源拓扑图,实时监控 Pod 生命周期状态及资源配额使用率 |
| 进程 | 主机运行进程 | 深度监控进程级资源消耗,建立进程与业务的关联关系 |
| 数据库 | MySQL、Redis、PostgreSQL 等 | 无侵入采集数据库性能指标,实时监控 QPS、连接数、慢查询等 |
| 网络 | 主机与容器网络流量 | 基于 eBPF 技术实现网络流量无侵入采集,监控 TCP 重传、连接异常等指标 |
| 资源目录 | 云资源、自定义资源 | 自动集成云商 API,统一监控 RDS、负载均衡器等托管服务 |
使用前提¶
使用基础设施监控前,请确保已完成以下步骤:
- 注册并登录至观测云工作空间;
- 在目标主机上安装 DataKit;
- 根据监控需求开启对应采集器。
核心概念¶
对象(O):对象是基础设施中的实体资源,如主机、容器、Pod、进程等。对象数据包含资源属性、状态及关联关系,通过对象数据可掌握资源的配置信息与运行状态。
关于指标、标签、时间线等概念的详细说明,可参考 指标。
数据展示¶
基础设施数据通过查看器进行可视化展示,支持以下分析维度:
- 列表视图:展示对象实时状态,支持排序、筛选、自定义显示列
- 蜂窝图:可视化呈现资源集群动态拓扑结构,支持跨层级钻取
- 排行榜/饼图/矩形树图:基于分组统计的数据分布分析
- 详情页:展示对象完整属性、指标趋势、关联数据及绑定视图
开始使用¶
主机监控¶
实时采集 200+ 系统级指标,覆盖 CPU steal time、内存 swap activity、磁盘 IOPS 等深度性能数据。
安装 DataKit 后,系统自动开启一批主机相关采集器,自动上报数据至工作空间。
默认开启的采集器列表如下:
| 采集器名称 | 功能描述 |
|---|---|
cpu |
主机 CPU 使用情况 |
disk |
磁盘占用情况 |
diskio |
主机磁盘 IO 情况 |
mem |
主机内存使用情况 |
swap |
Swap 内存使用情况 |
system |
主机操作系统负载 |
net |
主机网络流量情况 |
host_process |
主机进程列表及资源占用情况(默认采集存活超过 10 分钟的进程) |
hostobject |
主机基础信息(操作系统、硬件信息等) |
container |
主机容器或 Kubernetes 数据(若主机无容器,采集器自动退出) |
更多详情,可参考 DataKit 采集器使用、主机对象。
容器与 Kubernetes¶
自动构建集群资源拓扑图,实时监控 Pod 生命周期状态及资源配额使用率,精准追踪 HPA 弹性伸缩效率,有效预警因资源不足导致的容器重启事件。
观测云提供两种开启容器数据采集的方式:
- 主机安装 DataKit:开启容器采集器,支持采集 Containers 和 Pods 数据
- DaemonSet 方式安装 DataKit:支持采集 Kubernetes 全量资源数据(Containers、Pods、Services、Deployments、Nodes 等),自动构建集群拓扑
进程监控¶
深度监控进程级资源消耗,建立进程与业务的关联关系,支持从异常进程快速下钻至对应的应用性能链路和日志数据。
系统默认开启进程采集器,采集最近 10 分钟内的进程数据。如需采集进程指标数据(CPU、内存等),进入 DataKit 安装目录下的 conf.d/host 文件夹,复制 host_processes.conf.sample 并重命名为 host_processes.conf,将 open_metric 设置为 true 后重启 DataKit。
更多详情,可参考 进程。
数据库监控¶
通过无侵入方式自动采集主流数据库性能指标,涵盖 MySQL、Redis、PostgreSQL 等常见数据库类型,实时监控 QPS、连接数、慢查询等关键性能数据。
网络监控¶
基于 eBPF 技术实现网络流量的无侵入采集,全面监控 TCP 重传、连接异常等网络性能指标,通过实时拓扑可视化服务依赖关系。
资源目录¶
自动集成云商 API,统一监控 RDS、负载均衡器等托管服务,关联云商账单数据,实现成本与性能的双重管控。
通过创建自定义资源,结合 DataKit API 和 DataFlux Func,向观测云上报任意数据,包括云厂商云资源数据、企业业务数据等。
具体操作过程,可参考 资源目录数据上报。