AWS 和 NVIDIA 宣布战略合作,为生成 AI 提供新的超级计算基础设施、软件和服务

跨境快讯 2024-02-02 09:04:05 woniu
2
导读:AWS 将提供首款配备 NVIDIA Grace Hopper Superchip 和 AWS UltraCluster 可扩展性的云 AI 超级计算机NVIDIA DGX Cloud——第一个采用 NVIDIA GH200 NVL32 的云——即将登陆 AWS 多家公司就 Project Ceiba 进行合作——世界上最快的 GPU 驱动的 AI 超级计算机和最新的 NVIDIA DGX Cloud 超级计算机,用于 NVIDIA AI 研发和定制模型开发由 NVIDIA GH200、H200、L40S 和 L4 GPU 提供支持的新 Amazon EC2 实例可增强生成式 AI、HPC、设计和模拟工作负载AWS 上的 NVIDIA 软件(NeMo LLM 框架、NeMo Retriever 和 BioNeMo)可促进自定义模型、语义检索和药物发现的生成式 AI 开发

在 AWS re:Invent 上,Amazon.com, Inc. 旗下公司 Amazon Web Services, Inc. (AWS)(纳斯达克股票代码:AMZN)和 NVIDIA(纳斯达克股票代码:NVDA)今天宣布扩大战略合作,提供最先进的基础设施、软件和服务,为客户的生成人工智能 (AI) 创新提供支持。
两家公司将汇集 NVIDIA 和 AWS 的最佳技术,从配备下一代 GPU、CPU 和 AI 软件的 NVIDIA 最新多节点系统,到 AWS Nitro 系统高级虚拟化和安全性、Elastic Fabric Adapter (EFA) 互连以及UltraCluster 可扩展性——非常适合训练基础模型和构建生成式 AI 应用程序。此次扩大合作建立在长期关系的基础上,这种关系通过为早期机器学习 (ML) 先驱者提供推动这些技术发展所需的计算性能,推动了生成式 AI 时代的发展。

作为扩大合作以增强所有行业的生成式人工智能的一部分:

AWS 将成为第一家将采用全新多节点 NVLink 技术的 NVIDIA GH200 Grace Hopper Superchips 引入云的云提供商。NVIDIA GH200 NVL32 多节点平台将 32 个 Grace Hopper 超级芯片与 NVIDIA NVLink 和 NVSwitch 技术连接到一个实例中。该平台将在与 Amazon 强大的网络 ( EFA ) 连接的Amazon Elastic Compute Cloud (Amazon EC2) 实例上提供,并由高级虚拟化 ( AWS Nitro System ) 和超大规模集群 ( Amazon EC2 UltraClusters ) 提供支持,使联合客户能够扩展到数千个 GH200 超级芯片。
NVIDIA 和 AWS 将合作在 AWS 上托管NVIDIA DGX Cloud(NVIDIA 的 AI 训练即服务)。它将是第一个采用 GH200 NVL32 的 DGX 云,为开发人员提供单个实例中最大的共享内存。AWS 上的 DGX Cloud 将加速尖端生成式 AI 和参数超过 1 万亿个的大型语言模型的训练。
NVIDIA 和 AWS 正在开展 Project Ceiba 合作,设计世界上最快的 GPU 驱动的 AI 超级计算机,这是一个采用 GH200 NVL32 和 Amazon EFA 互连的大规模系统,由 AWS 为 NVIDIA 自己的研发团队托管。这台首创的超级计算机配备 16,384 颗 NVIDIA GH200 超级芯片,能够处理 65 exaflops 的 AI,NVIDIA 将使用它来推动下一波生成式 AI 创新。
AWS 将推出另外三个 Amazon EC2 实例:由NVIDIA H200 Tensor Core GPU提供支持的 P5e 实例,用于大规模和尖端的生成式 AI 和 HPC 工作负载;G6 和 G6e 实例,分别由NVIDIA L4 GPU和NVIDIA L40S GPU提供支持,适用于 AI 微调、推理、图形和视频工作负载等广泛应用。G6e 实例特别适合使用NVIDIA Omniverse(一个用于连接和构建支持 AI 的生成式 3D 应用程序的平台)开发 3D 工作流程、数字孪生和其他应用程序。
“从世界上第一个 GPU 云实例开始,AWS 和 NVIDIA 的合作已超过 13 年。今天,我们为图形、游戏、高性能计算、机器学习以及现在的生成式人工智能等工作负载提供最广泛的 NVIDIA GPU 解决方案。”AWS 首席执行官 Adam Selipsky 说道。“我们继续与 NVIDIA 一起创新,将下一代 NVIDIA Grace Hopper Superchips 与 AWS 的 EFA 强大网络、EC2 UltraClusters 的超大规模集群以及 Nitro 的高级虚拟化功能相结合,使 AWS 成为运行 GPU 的最佳场所。”NVIDIA 创始人兼首席执行官黄仁勋表示:“生成式 AI 正在改变云工作负载,并将加速计算作为多样化内容生成的基础。”“在向每位客户提供经济高效、最先进的生成式人工智能这一共同使命的驱动下,NVIDIA 和 AWS 正在整个计算堆栈上开展合作,涵盖人工智能基础设施、加速库、基础模型和生成式人工智能服务。”

新的 Amazon EC2 实例结合了 NVIDIA 和 AWS 的最先进技术

AWS 将成为第一家提供采用多节点 NVLink 技术的 NVIDIA GH200 Grace Hopper 超级芯片的云提供商。每个 GH200 Superchip 在同一模块上结合了基于 Arm 的 Grace CPU 和 Hopper 架构 GPU。配备 GH200 NVL32 的单个 Amazon EC2 实例可提供高达 20 TB 的共享内存,为 TB 级工作负载提供支持。这些实例将利用 AWS 的第三代 EFA 互连,为每个超级芯片提供高达 400 Gbps 的低延迟、高带宽网络吞吐量,使客户能够在 EC2 UltraCluster 中扩展到数千个 GH200 超级芯片。配备 GH200 NVL32 的 AWS 实例将为客户提供对超级计算机级性能的按需访问,这对于需要跨多个节点分布的大规模 AI/ML 工作负载(涵盖 FM、推荐系统和矢量数据库。

NVIDIA GH200 支持的 EC2 实例将配备 4.5 TB HBM3e 内存,与当前一代 H100 支持的 EC2 P5d 实例相比增加了 7.2 倍,允许客户运行更大的模型,同时提高训练性能。此外,CPU 至 GPU 内存互连的带宽比 PCIe 高出 7 倍,从而实现芯片间通信,从而扩展应用程序可用的总内存。

配备 GH200 NVL32 的 AWS 实例将成为 AWS 上首个采用液体冷却功能的 AI 基础设施,以帮助确保密集的服务器机架能够以最佳性能高效运行。采用 GH200 NVL32 的 EC2 实例还将受益于 AWS Nitro 系统,它是下一代 EC2 实例的底层基础设施。Nitro 系统将功能的 I/O 从主机 CPU/GPU 卸载到专用硬件,以提供更一致的性能,同时其增强的安全性可在处理过程中保护客户代码和数据。

AWS 率先托管由 Grace Hopper 提供支持的 NVIDIA DGX 云

AWS 将与 NVIDIA 合作托管由 GH200 NVL32 NVLink 基础设施提供支持的 NVIDIA DGX Cloud。NVIDIA DGX Cloud 是一项 AI 超级计算服务,可让企业快速访问多节点超级计算,以训练最复杂的 LLM 和生成式 AI 模型,并集成NVIDIA AI Enterprise软件并直接联系 NVIDIA AI 专家。

大型项目 Ceiba 超级计算机将加速 NVIDIA 的人工智能开发

AWS 和 NVIDIA 合作开发的 Project Ceiba 超级计算机将与 AWS 服务集成,例如 Amazon Virtual Private Cloud (VPC) 加密网络和 Amazon Elastic Block Store 高性能块存储,让 NVIDIA 能够访问全面的 AWS 功能。NVIDIA 将使用超级计算机进行研发,以推进法学硕士、图形(图像/视频/3D 生成)和模拟、数字生物学、机器人、自动驾驶汽车、Earth-2 气候预测等方面的人工智能。

NVIDIA 和 AWS 增强生成式 AI、HPC、设计和模拟

为了支持最大的 LLM 的开发、训练和推理,AWS P5e 实例将采用 NVIDIA 最新的 H200 GPU,该 GPU 提供 141 GB HBM3e GPU 内存,比 H100 GPU 大 1.8 倍,速度快 1.4 倍。GPU 内存的提升以及 AWS Nitro 系统支持的高达 3,200 Gbps 的 EFA 网络将使客户能够继续在 AWS 上构建、训练和部署其尖端模型。

为了为视频、AI 和图形工作负载提供经济高效、节能的解决方案,AWS 宣布推出配备 NVIDIA L40S GPU 的新 Amazon EC2 G6e 实例和由 L4 GPU 提供支持的 G6 实例。新产品可以帮助初创公司、企业和研究人员满足他们的人工智能和高保真图形需求。G6e 实例旨在处理复杂的工作负载,例如生成式 AI 和数字孪生应用程序。使用 NVIDIA Omniverse,可以使用来自 AWS IoT TwinMaker、智能聊天机器人、助手、搜索和摘要等服务的实时数据来开发、情境化和增强逼真的 3D 模拟。Amazon Robotics 和 Amazon Fulfillment Center 将能够集成使用 NVIDIA Omniverse 和 AWS IoT TwinMaker 构建的数字孪生,以优化仓库设计和流程、培训更多智能机器人助手并改善对客户的交付。

L40S GPU 提供高达 1.45 petaflops 的 FP8 性能,并配备光线追踪核心,可提供高达 209 teraflops 的光线追踪性能。G6 实例中配备的 L4 GPU 将为部署用于自然语言处理、语言翻译、AI 视频和图像分析、语音识别和个性化的 AI 模型提供低成本、高能效的解决方案。

L40S GPU 还可以加速图形工作负载,例如创建和渲染实时、电影质量的图形和游戏流。所有三个实例都计划在明年推出。

AWS 上的 NVIDIA 软件促进生成式 AI 开发

此外,NVIDIA 还宣布在 AWS 上推出软件来促进生成式 AI 开发。NVIDIA NeMo Retriever 微服务提供了新工具,可使用加速语义检索来创建高度准确的聊天机器人和摘要工具。NVIDIA BioNeMo 现已在 Amazon SageMaker 上提供,并计划在 AWS 上的 NVIDIA DGX Cloud 上提供,使制药公司能够使用自己的数据简化和加速模型训练,从而加快药物发现速度。

AWS 上的 NVIDIA 软件正在帮助 Amazon 为其服务和运营带来新的创新。AWS 正在使用 NVIDIA NeMo 框架来训练精选的下一代 Amazon Titan LLM。Amazon Robotics 已开始利用 NVIDIA Omniverse Isaac 构建数字孪生,以便在将其部署到现实世界之前在虚拟环境中自动化、优化和规划其自主仓库。

关于英伟达

自 1993 年成立以来,NVIDIA(纳斯达克股票代码:NVDA)一直是加速计算领域的先驱。该公司于 1999 年发明的 GPU 引发了 PC 游戏市场的增长,重新定义了计算机图形学,点燃了现代人工智能时代,并推动了元宇宙的创建。NVIDIA 现在是一家全栈计算公司,提供正在重塑行业的数据中心规模产品。更多信息请访问nvidianews.nvidia.com/。
原文链接:https://press.aboutamazon.com/2023/11/aws-and-nvidia-announce-strategic-collaboration-to-offer-new-supercomputing-infrastructure-software-and-services-for-generative-ai

相关文章