AWS SageMaker¶
采集 AWS SageMaker 指标信息
配置¶
安装 Func¶
推荐开通 观测云集成 - 扩展 - 托管版 Func: 一切前置条件都自动安装好, 请继续脚本安装
如果自行部署 Func 参考自行部署 Func
安装脚本¶
提示:请提前准备好符合要求的亚马逊 AK(简单起见,可直接授予全局只读权限
ReadOnlyAccess
)
手动开通脚本¶
-
登陆Func 控制台,点击【脚本市场】,进入官方脚本市场,搜索
guance_aws_sagemaker
-
点击【安装】后,输入相应的参数:AWS AK ID 、AK Secret 及账户名。
-
点击【部署启动脚本】,系统会自动创建
Startup
脚本集,并自动配置相应的启动脚本。 -
开启后可以在「管理 / 自动触发配置」里看到对应的自动触发配置。点击【执行】,即可立即执行一次,无需等待定期时间。稍等片刻,可以查看执行任务记录以及对应日志。
我们默认采集了一些配置, 具体见指标一栏
验证¶
- 在「管理 / 自动触发配置」确认对应的任务是否已存在对应的自动触发配置,同时可以查看对应任务记录及日志检查是否有异常
- 在观测云,「基础设施 / 自定义」中查看是否存在资产信息
- 在观测云,「指标」查看是否有对应监控数据
指标¶
配置好亚马逊-云监控,默认的指标集如下.可以通过配置的方式采集更多的指标:
推理组件指标¶
指标 | 描述 |
---|---|
CPUUtilizationNormalized | 每个推理组件副本报告的CPU利用率归一化指标值,范围0%-100%。若设置NumberOfCpuCoresRequired参数,显示保留利用率;否则显示超出限制的利用率 |
GPUMemoryUtilizationNormalized | 每个推理组件副本报告的GPU内存利用率归一化指标值 |
GPUUtilizationNormalized | 每个推理组件副本报告的GPU利用率归一化指标值。若设置NumberOfAcceleratorDevicesRequired参数,显示保留利用率;否则显示超出限制的利用率 |
MemoryUtilizationNormalized | 每个推理组件副本报告的内存利用率归一化值。若设置MinMemoryRequiredInMb参数,显示保留利用率;否则显示超出限制的利用率 |
推理成分指标的维度¶
维度 | 描述 |
---|---|
InferenceComponentName | 筛选推理组件指标 |
多模型端点模型加载指标¶
指标 | 描述 |
---|---|
ModelLoadingWaitTime | 调用请求等待下载、加载或同时下载和加载目标模型以运行推理的时间间隔。单位:微秒。有效统计数据:Average、Sum、Min、Max、Sample Count |
ModelUnloadingTime | 通过容器的UnloadModel API调用卸载模型所用的间隔时间。单位:微秒。有效统计数据:Average、Sum、Min、Max、Sample Count |
ModelDownloadingTime | 从Amazon S3下载模型所花费的时间间隔。单位:微秒。有效统计数据:Average、Sum、Min、Max、Sample Count |
ModelLoadingTime | 通过容器的LoadModel API调用加载模型所用的间隔时间。单位:微秒。有效统计数据:Average、Sum、Min、Max、Sample Count |
ModelCacheHit | 发送到已加载模型的多模型端点的InvokeEndpoint请求数。"Average"统计数据显示已加载模型的请求的比率。单位:无。有效统计数据:Average、Sum、Sample Count |
多模型端点模型加载指标的维度¶
维度 | 描述 |
---|---|
EndpointName, VariantName | 针对指定端点和变体的ProductionVariant筛选端点调用指标 |