我们的邮箱地址:

stopped@126.com

致电我们:

13659630032

案例中心

  • Home
  • 通过新的 Amazon SageMaker 容器提升 Mixtral 和 Llama 2 模型的推理

通过新的 Amazon SageMaker 容器提升 Mixtral 和 Llama 2 模型的推理

2026-01-27 15:00:14 26

提升 Mixtral 和 Llama 2 模型的推理性能:新的 Amazon SageMaker 容器

作者:Joao Moura、Rahul Sharma、Dhawalkumar Patel、Qing Lan、Raghu Ramesha、Rupinder Grewal、Jian Sheng 和 Tyler Osterberg发布时间:2024年4月8日来源: Amazon Machine Learning,Amazon SageMaker

重要信息

在这篇文章中,我们将探讨最新的 Amazon SageMaker 大型模型推理容器LMI DLC的版本0260所提供的新功能,这些功能能改善 Mixtral 和 Llama 2 模型的性能和可用性。本次更新包括对多种新型号的支持、推理后端的性能改进,以及生成详细信息的增强,以提高控制与预测的可解释性。

LMI DLC 的新功能

这一部分将探讨 LMI 后端的新功能,以及其中一些特定于后端的细节。目前,LMI 支持以下后端:

LMIDistributed Library 基于 AWS 的推理框架,旨在达成最佳延迟和准确性。LMI vLLM AWS 针对 vLLM 推理库的内存高效实现。LMI TensorRTLLM 工具包 提供针对 NVIDIA TensorRTLLM 的后端实现,以创建针对不同 GPU 的优化引擎。LMI DeepSpeed AWS 针对 DeepSpeed 的适配,提供真正的连续批处理、平滑量化和推理过程的动态内存调整功能。LMI NeuronX 针对 AWS Inferentia2 和 AWS Trainium 基于实例的部署,具有真正的连续批处理和加速特性。

以下表格总结了新添加的特性,包括通用特性和特定于后端的功能:

安易加速器破解版永久免费后端通用特性LMIDistributed增加了针对优化 GPU 集合的分组粒度LMI vLLM支持 CUDA 图以提高性能最多达到 50LMI TensorRTLLM新型号支持 JIT 编译,支持 TensorRTLLM 的原生平滑量化LMI NeuronX支持分组查询注意机制和性能提升

支持的新型号

在新的更新中,所有后端支援新的受欢迎型号,例如 Mistral7B、基于 MoE 的 Mixtral 和 Llama270B。

上下文窗口扩展技术

基于旋转位置嵌入RoPE的上下文缩放在 LMIDist、vLLM 和 TensorRTLLM 后端上可用。这允许在推理过程中扩展模型的序列长度到几乎任何大小,而不需要重新训练。

使用 RoPE 时,有以下两个重要考虑:

模型困惑度 随著序列长度的增加,模型的困惑度可能会上升。这一影响可以通过对超出原始训练序列小幅微调来部分抵消。推理性能 更长的序列将消耗更高的加速器高带宽内存,这可能对加速器能同时处理的请求数量产生不利影响。

增加的生成详细信息

您现在可以获得生成结果的两个细微详细信息:

通过新的 Amazon SageMaker 容器提升 Mixtral 和 Llama 2 模型的推理finishreason 此字段提供生成完成的原因,包括达到最大生成长度、生成结尾标记EOS或生成用户定义的停止标记。这将随最后一个流式序列块返回。logprobs 此字段返回模型为每个令牌分配的对数概率。这些值可以用作对模型信心的粗略估计。

您可以通过在 LMI 中的输入负载中添加 details=True 来启用生成结果的输出:

pythonpayload = { inputs your prompt parameters {maxnewtokens 256 details True}}

总结

在这篇文章中,我们介绍了 AWS LMI 容器版本 0260 的主要性能改进、新型号的支持以及新可用性功能。这些能力可以帮助您在满足终端用户的需求的同时,更好地平衡成本和性能特性。

如需了解更多 LMI DLC 能力,请参考 大模型推理。我们期待看到您如何利用 SageMaker 的新功能!

发表评论