跳转至

AWS SageMaker

采集 AWS SageMaker 指标信息

配置

安装 Func

推荐开通 观测云集成 - 扩展 - 托管版 Func: 一切前置条件都自动安装好, 请继续脚本安装

如果自行部署 Func 参考自行部署 Func

安装脚本

提示:请提前准备好符合要求的亚马逊 AK(简单起见,可直接授予全局只读权限ReadOnlyAccess

手动开通脚本

  1. 登陆Func 控制台,点击【脚本市场】,进入官方脚本市场,搜索 guance_aws_sagemaker

  2. 点击【安装】后,输入相应的参数:AWS AK ID 、AK Secret 及账户名。

  3. 点击【部署启动脚本】,系统会自动创建 Startup 脚本集,并自动配置相应的启动脚本。

  4. 开启后可以在「管理 / 自动触发配置」里看到对应的自动触发配置。点击【执行】,即可立即执行一次,无需等待定期时间。稍等片刻,可以查看执行任务记录以及对应日志。

我们默认采集了一些配置, 具体见指标一栏

验证

  1. 在「管理 / 自动触发配置」确认对应的任务是否已存在对应的自动触发配置,同时可以查看对应任务记录及日志检查是否有异常
  2. 在观测云,「基础设施 / 自定义」中查看是否存在资产信息
  3. 在观测云,「指标」查看是否有对应监控数据

指标

配置好亚马逊-云监控,默认的指标集如下.可以通过配置的方式采集更多的指标:

亚马逊云监控 AWS SageMaker 指标详情

推理组件指标

指标 描述
CPUUtilizationNormalized 每个推理组件副本报告的CPU利用率归一化指标值,范围0%-100%。若设置NumberOfCpuCoresRequired参数,显示保留利用率;否则显示超出限制的利用率
GPUMemoryUtilizationNormalized 每个推理组件副本报告的GPU内存利用率归一化指标值
GPUUtilizationNormalized 每个推理组件副本报告的GPU利用率归一化指标值。若设置NumberOfAcceleratorDevicesRequired参数,显示保留利用率;否则显示超出限制的利用率
MemoryUtilizationNormalized 每个推理组件副本报告的内存利用率归一化值。若设置MinMemoryRequiredInMb参数,显示保留利用率;否则显示超出限制的利用率
推理成分指标的维度
维度 描述
InferenceComponentName 筛选推理组件指标

多模型端点模型加载指标

指标 描述
ModelLoadingWaitTime 调用请求等待下载、加载或同时下载和加载目标模型以运行推理的时间间隔。单位:微秒。有效统计数据:Average、Sum、Min、Max、Sample Count
ModelUnloadingTime 通过容器的UnloadModel API调用卸载模型所用的间隔时间。单位:微秒。有效统计数据:Average、Sum、Min、Max、Sample Count
ModelDownloadingTime 从Amazon S3下载模型所花费的时间间隔。单位:微秒。有效统计数据:Average、Sum、Min、Max、Sample Count
ModelLoadingTime 通过容器的LoadModel API调用加载模型所用的间隔时间。单位:微秒。有效统计数据:Average、Sum、Min、Max、Sample Count
ModelCacheHit 发送到已加载模型的多模型端点的InvokeEndpoint请求数。"Average"统计数据显示已加载模型的请求的比率。单位:无。有效统计数据:Average、Sum、Sample Count
多模型端点模型加载指标的维度
维度 描述
EndpointName, VariantName 针对指定端点和变体的ProductionVariant筛选端点调用指标

文档评价

文档内容是否对您有帮助? ×