我们的邮箱地址:

stopped@126.com

致电我们:

13659630032

案例中心

  • Home
  • 使用 Amazon SageMaker 扩展基础模型推理至数百个模型 第 1 部分 机器学习博客

使用 Amazon SageMaker 扩展基础模型推理至数百个模型 第 1 部分 机器学习博客

2026-01-27 12:46:59 24

扩展 Amazon SageMaker 上的基础模型推理到数百个模型

关键要点

本文重点介绍了如何利用 Amazon SageMaker 扩展基础模型FMs推理服务,以便能够同时支持多个模型。这种方法适合需要快速响应且高效的 AI 解决方案的企业,同时探讨了在大规模部署 FMs 时面临的挑战以及选择合适的托管选项方法。

随着基础模型FMs逐渐普及,对 AI 增强服务的需求也在不断增加,软件即服务SaaS提供商开始寻求支持多租户的机器学习ML平台,以便服务于内部数据科学家和外部客户。越来越多的公司意识到利用 FMs 为客户生成高度个性化和有效的内容的价值。通过在自身数据上微调 FMs,可以显著提高模型在特定用例中的准确性,例如利用页面访问上下文生成销售邮件、根据公司的服务生成定制搜索答案,或者通过训练历史对话来实现客户支持自动化。

提供生成式 AI 模型托管服务使各组织能够轻松集成、试点和以经济高效的方式大规模部署 FMs,而无需具备内部人工智能专长。这使得公司能够尝试诸如超个性化销售和营销内容、智能搜索以及自定义客户服务工作流等 AI 用例。通过使用以客户信任数据微调的托管生成模型,企业可以赋能下一代个性化和有效的 AI 应用程序,更好地吸引和服务客户。

Amazon SageMaker 提供不同的 ML 推理选项,包括实时、异步和批量转换。本文重点为提供关于如何在大规模上以经济高效的方式托管 FMs 进行指导,特别是在实时推理的快速响应环境中,探讨针对 FMs 的不同实时推理选项。

ios机场

在大规模托管基础模型的挑战

以下是大规模托管 FMs 进行推理时面临的一些挑战:

挑战说明大内存占用拥有数百亿参数的 FMs 常常超过单个加速器芯片的内存容量。变换器速度慢使用自回归解码的 FMs,尤其是输入和输出序列较长时,导致内存 I/O 操作增加,造成无法接受的延迟,影响实时推理。成本FMs 需要高内存和高计算能力的 ML 加速器,同时在不牺牲高吞吐量和低延迟的情况下实现这两个目标是一项专门任务,需要深入了解硬件和软件的加速优化。较长的上市时间FMs 的最佳性能需要严格的调优,特别的调优过程加上基础设施管理的复杂性,往往导致更长的上市时间周期。工作负载隔离大规模托管 FMs 引入了最小化影响范围和处理噪声邻居的挑战,响应模型特有流量模式的扩展能力需要重要的工作负载管理。同时扩展数百个 FMs同时操作数百个 FMs 蕴含大量的操作开销,高效的端点管理、合适的切分和加速器分配,以及模型特定的扩展任务随之而来,复杂度随模型增加而加剧。

拥有合适的托管选项

选择合适的托管选项会影响最终用户的体验,因此需要用到 适应度函数 的概念。我们借用 Neal Ford 及 AWS 合作伙伴 Thought Works 在《构建演变架构》中的定义,适应度函数为评估不同托管选项提供指导。适应度函数能帮助您获取达到架构演变所需的数据,并设定可衡量的值用以评估解决方案的进展。

以下是选择合适的 FMs 推理选项时可以考虑的适应度函数:

基础模型大小:FMs 基于变压器架构,其规模庞大且内存消耗高,生成长文本序列时需要大量计算能力,通常会迫使其依赖多个 ML 加速器。性能和 FM 推理延迟:推理延迟须在服务等级目标的约束范围内,包括 FM 大小、硬件配置、模型网络架构等众多因素。工作负载隔离:从监管与合规的角度,工作负载隔离能确保 AI 模型及算法的保密性和完整性,以保护 AI 知识产权。成本效益:选择合适基础设施的托管选项会影响 FMs 模型的部署和维护成本,因此需优先考虑基础设施成本并了解总体拥有成本TCO中的其他组件。可扩展性:对于管理数百个 FMs 的操作开销,以及支持模型按工作负载模式扩展等因素,也需考虑到模型的切分能力与调度。

在 SageMaker 上选择 FM 托管选项的应用

在本节中,我们展示如何依据上述适应度函数选择合适的 FM 托管选项。

SageMaker 单模型端点

SageMaker 单模型端点允许在专用实例上托管一个 FM,适用于低延迟和高吞吐量。端点完全托管并支持自动扩展,您可以根据需要配置实例类型与数量,SageMaker 会根据自动扩展策略自动启动计算资源。

在评估单模型端点的适应度函数时,请考虑以下因素:

基础模型大小:对于不能容纳于单个 ML 加速器内存的模型,需考虑使用多个加速器的实例。性能和 FM 推理延迟:针对延迟敏感的生成 AI 应用,这一点尤为重要。工作负载隔离:应用可能因安全合规需要 EC2 实例级隔离。不同 FM 将获得独立的推理端点,不共享 EC2 实例。

SageMaker 多模型端点

SageMaker 的多模型端点(MMEs)允许您在 GPU 核心上共同托管多个模型并共享 GPU 实例,大幅度节省成本,适合需要托管小型模型的情况。

在评估 MMEs 的使用时,需考虑以下因素:

基础模型大小:适合能够放入单个 ML 加速器的模型。性能和 FM 推理延迟:接受冷启动延迟的生成 AI 应用程序。工作负载隔离:模型可以在同一容器间共享。

结论

在本文中,我们探讨了三种实时 ML 推理选项单端点、多模型端点、带有 InferenceComponents 的端点以经济高效的方式在 SageMaker 上托管 FMs。我们介绍了利用适应度函数选择合适的托管选项的方法,并推荐了模型的分组标准。

使用 Amazon SageMaker 扩展基础模型推理至数百个模型  第 1 部分 机器学习博客

为了帮助您更便捷地做出选择,您可以参考下表以决定适合您用例的共享 SageMaker 托管选项:

托管选项单模型端点多模型端点带 InferenceComponents 的端点模型生命周期API 管理通过 S3 动态路径API 管理支持的实例类型CPU、单个和多个 GPU、基于 AWS Inferentia 的实例CPU、单 GPU 实例CPU、单个和多个 GPU、基于 AWS Inferentia 的实例性能度量端点端点端点和容器扩展粒度ML 实例ML 实例容器扩展行为独立 ML 实例扩展模型根据内存加载和卸载独立容器扩展模型绑定不能模型可以根据内存卸载每个容器可以配置为始终加载或卸载容器要求SageMaker 预构建的、兼容的 BYOCMMS、Triton、带 MME 合同的 BYOCSageMaker 预构建的、兼容的 BYOC路由选项随机或最少连接随机,具有受欢迎窗口随机或最少连接模型的硬件分配专用于单个模型共享每个容器专用支持的模型数量单个数千个数百个响应流式传输支持不支持支持数据捕获支持不支持不支持影子测试支持不支持不支持多变体支持不适用不支持AWS 市场模型支持不适用不支持

如需了解更多信息和示例代码,请访问以下 GitHub 仓库: 单一 SageMaker 端点、多模型端点 和 InferenceComponents 端点。

发表评论