英伟达推出AI企业级软件套件，推动AI计算虚拟化

综合新闻

通知公告

您现在所在位置：主页 > 综合新闻 >

【作者】：网站采编
【关键词】：
【摘要】：北京时间3月9日，英伟达发布了AI企业级软件套件——NVIDIA AI Enterprise。该套件经过了英伟达的官方优化和认证，专门与同日公布的VMware vSphere服务器虚拟化软件最新更新搭配使用，提供

北京时间3月9日，英伟达发布了AI企业级软件套件——NVIDIA AI Enterprise。该套件经过了英伟达的官方优化和认证，专门与同日公布的VMware vSphere服务器虚拟化软件最新更新搭配使用，提供AI企业级工具和框架。

英伟达和VMware的合作始于去年9月底，目标是深度结合英伟达GPU和VM的服务器虚拟化软件，从而大幅简化现代混合云中各种不同AI工作及应用的开发和部署，为企业未来升级数据中心和部署AI应用提供支持。

英伟达表示，最新发布的NVIDIA AI Enterprise软件套件旨在解决部署单个AI应用的复杂性问题，还可以应对和管理多种应用和基础设施软件的兼容性问题。

“它面向的领域包括制造、物流、金融、零售和医疗等众多关键行业，扮演优化业务和提升效率的角色，”英伟达博客上写道。“依靠NVIDIA AI Enterprise 软件套件，科学家和AI研究者能够更轻松地使用英伟达的AI工具，推动高级诊断、智能工厂等AI项目的发展。”

图 | NVIDIA AI Enterprise和VMware vSphere组合而成的AI就绪平台

在NVIDIA AI Enterprise软件套件背后，支持其运行的是VMware vSphere。这是VMware公司推出的服务器/计算虚拟化平台，采用原生Kubernetes构建，支持在容器（Container）上部署AI工作负载。

vSphere Update 2是该平台的最新更新，与NVIDIA AI Enterprise软件套件同日发布。它基于英伟达A100 Tensor Core GPU运行，也是唯一一款通过英伟达认证的、使用多实例GPU技术提供实时应用迁移服务的计算虚拟化软件。

不同AI工作负载的规模可以相差很多，对数据的要求也不一样。有的需要处理图像，比如电商平台的商品推荐系统，有的则需要处理文本，比如对话式AI驱动的客服系统。

与此同时，AI模型的训练需要耗费大量数据和算力，但其部署和推理所需的计算资源通常较少，可能并不需要GPU的全部性能。

因此，为了最大限度地提高各种规模工作负载的效率，多实例GPU技术可以将每个A100 GPU在硬件层面分割成至多7个实例。

在vSphere最新版本中，得益于两家公司的优化努力，英伟达AI软件套件和VMware vSphere支持的虚拟工作负载性能得到了提升，AI工作负载也可以线性扩展到多个节点。

官方数据显示，在分布式深度学习训练测试中，虚拟工作负载在vSphere平台上的性能表现几乎比肩裸金属（Bare-metal）GPU平台。

图 | 用于 vSphere的NVIDIA AI Enterprise使分布式深度学习训练可线性扩展至多个节点，性能比肩裸金属平台

VMware云平台事业部营销副总裁Lee Caswell表示：“每家企业都在探索如何通过实现基础设施的现代化来满足AI应用需求。借助NVIDIA AI Enterprise和vSphere 7 Update 2，VMware客户现在能够在其虚拟化数据中心中快速应用AI，并为他们的现代化应用程序轻松部署经认证的AI就绪型基础设施。”

NVIDIA AI Enterprise兼容了多种可以在混合云架构下运行的软件，比如加速CUDA应用、AI框架、预训练模型和软件开发工具包。它们可以作为工作负载，在VMware的Cloud Foundation平台上运行的虚拟数据中心中快速部署和管理。

经过优化的工作负载还可以在多个虚拟节点上扩展，甚至能够支持完全GPU虚拟化的大型深度学习训练模型。

目前，与在x86架构处理器上运行虚拟机执行工作负载相比，使用GPU的成本更高。但Lee Caswell表示，在两家公司的共同努力下，虚拟机软件已经可以在单个GPU处理器上驱动多个工作负载，将运行成本拉低到与裸金属GPU系统差不多的水平。

对于大企业的IT系统管理者来说，相差不多的成本可以驱动他们转向由GPU驱动的IT系统，尤其是未来需要部署AI应用时。

“我们希望它（新套件和vSphere）成为IT管理者的一站式服务平台，” NVIDIA副总裁兼企业及边缘计算总经理Justin Boitano表示。

目前在生产环境中部署AI工作负载平均需要80周，英伟达希望将其缩短到8周。

这意味着现有的传统IT管理员必须用他们熟悉的方式部署IT基础架构，而目前整个行业正在摸索类似DevOps的机器学习操作（MLOps）流程，大多数AI应用的部署都是由数据科学团队负责的。未来，传统IT管理员扮可能会更多地参与其中。

英伟达现已开放NVIDIA AI Enterprise的早期试用，企业必须先升级到VMware vSphere 7 Update 2才能申请，而且要使用英伟达认证服务器。获得NVIDIA认证系统认证的服务器包括戴尔科技、新华三、慧与、浪潮、联想和超微等高容量服务器。该套件将以永久许可证的方式提供，每个CPU插槽的价格为3595美元，额外的企业业务支持许可证年费为899美元。

上一篇：软件定义汽车的时代，入门级SUV哈弗初恋是如何
下一篇：经典像素游戏画创作软件Aseprite