天气公司通过Amazon SageMaker、AWS CloudFormation和Amazon CloudWatch增强MLOps
作者:Qaish Kanchwala、Anila Joshi、Chezsal Kamaray、Francisco Calderon Rodriguez、Kamran Razi、Shuja Sohrawardy,发表于2024年7月8日 Amazon CloudWatch、Amazon SageMaker、Amazon Simple Storage Service (S3)、AWS CloudFormation、AWS CloudTrail、AWS CodeBuild、AWS CodeCommit、AWS CodePipeline、AWS Service Catalog、Customer Solutions、Storage永久链接 评论 分享
安易加速app官网入口关键要点
天气公司通过AWS服务显著提升了其机器学习运营MLOps效率。通过Amazon SageMaker、AWS CloudFormation和Amazon CloudWatch等服务,TWCo将基础设施管理时间减少了90,模型部署时间减少了20。TWCo致力于在快速变化的市场中,利用机器学习提供透明的工作流与管理。天气公司TWCo在许多行业日益依赖机器学习ML技术的背景下,迫切需要建立一个可扩展的机器学习运营MLOps平台。在这篇文章中,我们将分享TWCo如何利用Amazon SageMaker、AWS CloudFormation和Amazon CloudWatch来提升其MLOps平台。TWCo的数据科学家和机器学习工程师充分利用了自动化、详细实验跟踪、集成训练和部署工作流,从而有效地扩大了MLOps的规模。

TWCo对MLOps的需求
TWCo的目标是帮助消费者和企业根据天气做出更明智、更自信的决策。虽然该组织在天气预报过程中已经使用机器学习技术几十年,但他们仍在不断寻求创新,力求将先进技术融入更多方面。TWCo的数据科学团队希望创建可预测的、保护用户隐私的机器学习模型,展示天气条件如何影响某些健康症状,并创建用户细分以改善用户体验。
TWCo希望以更高的透明度和更低的复杂性来扩展其机器学习运营,以适应日益壮大的数据科学团队。然而,在云中运行机器学习工作流时,他们遇到了显著的挑战。现有的云环境缺乏机器学习工作的透明度、监控和特征存储,使得用户合作变得不易。管理层缺乏对机器学习工作流的持续监控的可见性。为了解决这些痛点,TWCo与AWS机器学习解决方案实验室MLSL合作,将这些机器学习工作流迁移到Amazon SageMaker和AWS云环境。MLSL团队与TWCo合作设计了一个MLOps平台,以满足其数据科学团队的需求,同时考虑到当前和未来的增长。
TWCo为此次合作设定的业务目标包括:
更快响应市场,加快机器学习开发周期加速TWCo将机器学习任务迁移至SageMaker通过采用托管服务改善最终用户体验减少工程师在维护和保养底层机器学习基础设施上花费的时间为了评估MLOps平台用户的使用效果,还设定了功能目标,包括:
提高数据科学团队在模型训练任务上的效率减少部署新模型所需的步骤缩短端到端模型管道的运行时间解决方案概述
该解决方案利用了以下AWS服务:
服务描述AWS CloudFormation基础设施即代码IaC服务,用于提供大部分模板和资产。AWS CloudTrail监控并记录AWS基础设施上的帐户活动。Amazon CloudWatch收集和可视化实时日志,为自动化提供基础。AWS CodeBuild完全托管的持续集成服务,用于编译源代码、运行测试并生成可部署软件。AWS CodeCommit托管的源代码控制库,存储MLOps基础设施代码和IaC代码。AWS CodePipeline完全托管的持续交付服务,帮助自动化管道的发布。Amazon SageMaker完全托管的机器学习平台,用于执行数据探索、模型培训和部署的机器学习工作流。AWS Service Catalog集中管理云资源,如用于MLOps项目的IaC模板。Amazon Simple Storage Service (Amazon S3)云对象存储,用于存储训练和测试数据。以下图示展示了解决方案架构:
该架构由两个主要管道组成:
训练管道:训练管道设计用于处理以CSV格式存储在Amazon S3上的特征和标签。它涉及多个组件,包括预处理、训练和评估。训练模型后,其相关工件通过注册模型组件注册到Amazon SageMaker模型注册表。管道中的数据质量检查部分为推理管道的监控任务创建基线统计数据。
推理管道:推理管道处理按需批量推理和监控任务。在该管道内,集成了SageMaker按需数据质量监控步骤,以检测输入数据的漂移情况。监控结果存储在Amazon S3中,并作为CloudWatch指标发布,后续可设置警报。该警报可用于启动训练、发送自动邮件或执行其他所需操作。
提议的MLOps架构具备支持不同用例的灵活性,并促进数据科学家与机器学习工程师等团队间的协作。这种架构减少了跨功能团队在将模型推向生产时遇到的摩擦。
模型实验是MLOps架构的一个子组件,它提升了数据科学家的生产力和模型开发过程。在MLOps相关的SageMaker服务上进行模型实验要求诸如Amazon SageMaker Pipelines、Amazon SageMaker Feature Store和SageMaker模型注册表等功能,并使用SageMaker SDK和AWS Boto3库。
在设置管道时,会创建管道生命周期所需的资源。此外,每个管道可能会生成其自己的资源。
管道设置资源包括:
训练管道:SageMaker管道SageMaker模型注册表模型组CloudWatch命名空间推理管道:SageMaker管道管道运行资源包括:
训练管道:SageMaker模型当管道过期或不再需要时,您应删除这些资源。
SageMaker项目模板
在本节中,我们将讨论通过示例笔记本手动配置管道和通过使用服务目录产品和SageMaker项目自动配置SageMaker管道。
通过使用Amazon SageMaker Projects及其基于模板的强大方法,组织能够建立标准化和可扩展的基础设施用于机器学习开发,使团队可以集中精力于构建和迭代ML模型,从而减少在复杂的设置和管理中浪费的时间。
以下图示显示了SageMaker项目模板所需的组件。使用服务目录在您的组织的服务目录组合中注册SageMaker项目的CloudFormation模板。
为了启动机器学习工作流程,项目模板作为基础,通过定义持续集成和交付CI/CD管道。它首先从CodeCommit仓库获取ML种子代码。接着,BuildProject组件接管并协调整个SageMaker训练和推理管道的提供。这种自动化实现了机器学习管道的无缝高效运行,减少了人工干预,加快了部署过程。
依赖项
该解决方案有以下依赖项:
Amazon SageMaker SDK:Amazon SageMaker Python SDK是用于在SageMaker上训练和部署机器学习模型的开源库。对本概念验证,管道使用此SDK进行了设置。Boto3 SDK: AWS SDK for Python (Boto3)为AWS基础设施服务提供Python API。我们利用Python SDK创建角色并提供SageMaker SDK资源。SageMaker Projects:SageMaker Projects为MLOps提供标准化的基础设施和模板,支持针对多个机器学习用例的快速迭代。服务目录:通过服务目录简化并加速大规模资源提供的过程。它提供自助服务门户、标准化服务目录、版本管理和生命周期管理,以及访问控制。结论
在这篇文章中,我们展示了TWCo如何利用SageMaker、CloudWatch、CodePipeline和CodeBuild来构建其MLOps平台。通过这些服务,TWCo扩展了其数据科学团队的能力,同时改善了数据科学家管理机器学习工作流的方式。这些机器学习模型最终帮助TWCo创造了可预测、保护隐私的用户体验,并解释了天气条件如何影响消费者日常计划或商业运营。我们还回顾了帮助维护不同用户责任模块化的架构设计。通常,数据科学家主要关注机器学习工作流的科学部分,而DevOps和机器学习工程师则专注于生产环境。TWCo将基础设施管理时间减少了90,同时将模型部署时间减少了20。
这只是AWS帮助开发者实现卓越解决方案的方式之一。我们鼓励您立即开始使用Amazon SageMaker。
关于作者
Qaish Kanchwala 是天气公司的ML工程经理和ML架构师。他参与机器学习生命周期的每个步骤,并设计系统以支持AI用例。在空闲时间,Qaish喜欢尝试新菜肴和观看电影。
Chezsal Kamaray 是亚马逊网络服务高科技垂直领域的高级解决方案架构师。她与企业客户合作,帮助加速和优化他们的工作负载迁移到AWS云。她对云中的管理和治理充满热情,并帮助客户建立一个旨在实现长期成功的着陆区。在空闲时间,她喜欢木工和尝试新食谱,同时听音乐。
Anila Joshi 在构建AI解决方案方面拥有十年以上的经验。作为AWS生成AI创新中心的应用科学经理,Anila开发创新的AI应用,开拓可能性,并引导客户战略性地迎接AI的未来。
Kamran Razi 是亚马逊生成AI创新中心的机器学习工程师。Kamran热衷于创建以用例为驱动的解决方案,帮助客户充分利用AWS AI/ML服务应对现实世界的商业挑战。作为软件开发者,他拥有十年的经验,精通嵌入式系统、安全解决方案和工业控制系统等多领域。Kamran持有皇后大学电气工程博士学位。
Shuja Sohrawardy 是AWS生成AI创新中心的高级经理。在过去的20年中,Shuja利用他的技术和金融服务专业知识,转型金融服务企业以应对竞争激烈且受监管的行业。过去4年在AWS的工作使Shuja在机器学习、弹性和云采纳策略方面积累了丰富的知识,助力了众多客户的成功之路。Shuja获得了纽约大学计算机科学与经济学学士学位,以及哥伦比亚大学执行技术管理硕士学位。
Francisco Calderon 是生成AI创新中心的数据科学家。作为GAIIC的成员,他帮助AWS客户挖掘生成AI技术的可能性。在空闲时间,Francisco喜欢演奏音乐和吉他,和女儿踢足球,享受与家人相处的时光。
发表评论