Apollo¶
采集 Apollo 相关指标信息。
安装配置¶
前置条件¶
- 安装 DataKit
Apollo 监控¶
Apollo 在分布式部署时包含由三类进程 Portal、ConfigService、AdminService 扮演的众多角色,例如为测试和生产环境分别部署专用的 ConfigService、AdminService,具体参考 Apollo部署架构,三类进程均在 /prometheus
端点暴露 Prometheus 格式指标:
- Portal:8070/prometheus
- ConfigService:8080/prometheus
- AdminService:8090/prometheus
DataKit 采集器配置¶
由于 Apollo
能够直接暴露 metrics
url,所以可以直接通过prom
采集器进行采集。
进入DataKit 安装目录下的 conf.d/prom
,复制 prom.conf.sample
为 apollo-portal-prod-1.conf
cp prom.conf.sample apollo-portal-prod-1.conf
调整内容如下:
url = "http://127.0.0.1:8070/prometheus"
## Collector alias.
source = "apollo_portal_prod_1"
## (Optional) Collect interval: (defaults to "30s").
interval = "30s"
## If measurement_name is not empty, using this as measurement set name.
measurement_name = "apollo"
按照以上方式创建 ConfigService、AdminService 采集器配置文件
其他配置按需调整,调整参数说明 :
- urls:
prometheus
指标地址,这里填写对应组件暴露出来的指标 url - source:采集器别名,建议做区分
- interval:采集间隔
重启 DataKit¶
指标¶
Apollo 指标位于 apollo 指标集下,这里主要介绍 Apollo 相关指标说明
指标名 | 描述 | 单位 |
---|---|---|
http_server_requests_seconds |
HTTP 服务器处理请求的响应时间,客户端使用 HTTP 方式连接 Apollo 服务端 | Second |
process_uptime_seconds |
JVM 启动时长 | Second |
hikaricp_connections_active |
活跃连接数 | Count |
hikaricp_connections_idle |
空闲连接数 | Count |
hikaricp_connections_pending |
等待连接的线程数,正常时为 0,持续不为 0 时应告警,使用增加最大连接数等方式优化 | Count |
hikaricp_connections_usage_seconds |
连接被业务占用的时间,过长时告警,可能由数据库响应缓慢引起,关注平均值与P99极值 | Second |
jvm_memory_max_bytes |
JVM 管理的最大内存数,使用 id 标签标识不同内存类型 | Byte |
jvm_memory_usage_after_gc_percent |
上一次 GC 后长期存活对象在堆内存中的占比 | % |
jvm_memory_used_bytes |
JVM 管理的已用内存数,使用 id 标签标识不同内存类型 | Byte |
jvm_memory_committed_bytes |
JVM 已提交内存数 | Byte |
jvm_gc_pause_seconds |
JVM GC 暂停的时长 | Second |
system_load_average_1m |
操作系统最近一分钟平均负载 | - |
system_cpu_count |
JVM 能够使用的 CPU 数 | Count |
system_cpu_usage |
操作系统 CPU 使用率 | % |
process_cpu_usage |
进程 CPU 使用率 | % |
process_files_max_files |
允许进程打开的最大文件描述符数 | Count |
process_files_open_files |
进程打开的文件描述符数 | Count |