Apollo¶

采集 Apollo 相关指标信息。

安装配置¶

前置条件¶

安装 DataKit

Apollo 监控¶

Apollo 在分布式部署时包含由三类进程 Portal、ConfigService、AdminService 扮演的众多角色，例如为测试和生产环境分别部署专用的 ConfigService、AdminService，具体参考 Apollo部署架构，三类进程均在 /prometheus 端点暴露 Prometheus 格式指标：

Portal：8070/prometheus
ConfigService：8080/prometheus
AdminService：8090/prometheus

DataKit 采集器配置¶

由于 Apollo 能够直接暴露 metrics url，所以可以直接通过prom采集器进行采集。

进入DataKit 安装目录下的 conf.d/samples ，复制 prom.conf.sample 为 apollo-portal-prod-1.conf

cp prom.conf.sample apollo-portal-prod-1.conf

调整内容如下：

  url = "http://127.0.0.1:8070/prometheus"
  ## Collector alias.
  source = "apollo_portal_prod_1"
  ## (Optional) Collect interval: (defaults to "30s").
  interval = "30s"
  ## If measurement_name is not empty, using this as measurement set name.
  measurement_name = "apollo"

按照以上方式创建 ConfigService、AdminService 采集器配置文件

其他配置按需调整，调整参数说明：

urls：prometheus指标地址，这里填写对应组件暴露出来的指标 url
source：采集器别名，建议做区分
interval：采集间隔

重启 DataKit¶

重启 DataKit

指标¶

Apollo 指标位于 apollo 指标集下，这里主要介绍 Apollo 相关指标说明

指标名	描述	单位
`http_server_requests_seconds`	HTTP 服务器处理请求的响应时间，客户端使用 HTTP 方式连接 Apollo 服务端	Second
`process_uptime_seconds`	JVM 启动时长	Second
`hikaricp_connections_active`	活跃连接数	Count
`hikaricp_connections_idle`	空闲连接数	Count
`hikaricp_connections_pending`	等待连接的线程数，正常时为 0，持续不为 0 时应告警，使用增加最大连接数等方式优化	Count
`hikaricp_connections_usage_seconds`	连接被业务占用的时间，过长时告警，可能由数据库响应缓慢引起，关注平均值与P99极值	Second
`jvm_memory_max_bytes`	JVM 管理的最大内存数，使用 id 标签标识不同内存类型	Byte
`jvm_memory_usage_after_gc_percent`	上一次 GC 后长期存活对象在堆内存中的占比	%
`jvm_memory_used_bytes`	JVM 管理的已用内存数，使用 id 标签标识不同内存类型	Byte
`jvm_memory_committed_bytes`	JVM 已提交内存数	Byte
`jvm_gc_pause_seconds`	JVM GC 暂停的时长	Second
`system_load_average_1m`	操作系统最近一分钟平均负载	-
`system_cpu_count`	JVM 能够使用的 CPU 数	Count
`system_cpu_usage`	操作系统 CPU 使用率	%
`process_cpu_usage`	进程 CPU 使用率	%
`process_files_max_files`	允许进程打开的最大文件描述符数	Count
`process_files_open_files`	进程打开的文件描述符数	Count