英伟达推出AI企业级软件套件,推动AI计算虚拟化
北京时间3月9日,英伟达发布了AI企业级软件套件——NVIDIA AI Enterprise。该套件经过了英伟达的官方优化和认证,专门与同日公布的VMware vSphere服务器虚拟化软件最新更新搭配使用,提供AI企业级工具和框架。
英伟达和VMware的合作始于去年9月底,目标是深度结合英伟达GPU和VM的服务器虚拟化软件,从而大幅简化现代混合云中各种不同AI工作及应用的开发和部署,为企业未来升级数据中心和部署AI应用提供支持。
英伟达表示,最新发布的NVIDIA AI Enterprise软件套件旨在解决部署单个AI应用的复杂性问题,还可以应对和管理多种应用和基础设施软件的兼容性问题。
“它面向的领域包括制造、物流、金融、零售和医疗等众多关键行业,扮演优化业务和提升效率的角色,”英伟达博客上写道。“依靠NVIDIA AI Enterprise 软件套件,科学家和AI研究者能够更轻松地使用英伟达的AI工具,推动高级诊断、智能工厂等AI项目的发展。”
图 | NVIDIA AI Enterprise和VMware vSphere组合而成的AI就绪平台
在NVIDIA AI Enterprise软件套件背后,支持其运行的是VMware vSphere。这是VMware公司推出的服务器/计算虚拟化平台,采用原生Kubernetes构建,支持在容器(Container)上部署AI工作负载。
vSphere Update 2是该平台的最新更新,与NVIDIA AI Enterprise软件套件同日发布。它基于英伟达A100 Tensor Core GPU运行,也是唯一一款通过英伟达认证的、使用多实例GPU技术提供实时应用迁移服务的计算虚拟化软件。
不同AI工作负载的规模可以相差很多,对数据的要求也不一样。有的需要处理图像,比如电商平台的商品推荐系统,有的则需要处理文本,比如对话式AI驱动的客服系统。
与此同时,AI模型的训练需要耗费大量数据和算力,但其部署和推理所需的计算资源通常较少,可能并不需要GPU的全部性能。
因此,为了最大限度地提高各种规模工作负载的效率,多实例GPU技术可以将每个A100 GPU在硬件层面分割成至多7个实例。
在vSphere最新版本中,得益于两家公司的优化努力,英伟达AI软件套件和VMware vSphere支持的虚拟工作负载性能得到了提升,AI工作负载也可以线性扩展到多个节点。
官方数据显示,在分布式深度学习训练测试中,虚拟工作负载在vSphere平台上的性能表现几乎比肩裸金属(Bare-metal)GPU平台。
图 | 用于 vSphere的NVIDIA AI Enterprise使分布式深度学习训练可线性扩展至多个节点,性能比肩裸金属平台
VMware云平台事业部营销副总裁Lee Caswell表示:“每家企业都在探索如何通过实现基础设施的现代化来满足AI应用需求。借助NVIDIA AI Enterprise和vSphere 7 Update 2,VMware客户现在能够在其虚拟化数据中心中快速应用AI,并为他们的现代化应用程序轻松部署经认证的AI就绪型基础设施。”
NVIDIA AI Enterprise兼容了多种可以在混合云架构下运行的软件,比如加速CUDA应用、AI框架、预训练模型和软件开发工具包。它们可以作为工作负载,在VMware的Cloud Foundation平台上运行的虚拟数据中心中快速部署和管理。
经过优化的工作负载还可以在多个虚拟节点上扩展,甚至能够支持完全GPU虚拟化的大型深度学习训练模型。
目前,与在x86架构处理器上运行虚拟机执行工作负载相比,使用GPU的成本更高。但Lee Caswell表示,在两家公司的共同努力下,虚拟机软件已经可以在单个GPU处理器上驱动多个工作负载,将运行成本拉低到与裸金属GPU系统差不多的水平。
对于大企业的IT系统管理者来说,相差不多的成本可以驱动他们转向由GPU驱动的IT系统,尤其是未来需要部署AI应用时。
“我们希望它(新套件和vSphere)成为IT管理者的一站式服务平台,” NVIDIA副总裁兼企业及边缘计算总经理Justin Boitano表示。
目前在生产环境中部署AI工作负载平均需要80周,英伟达希望将其缩短到8周。
这意味着现有的传统IT管理员必须用他们熟悉的方式部署IT基础架构,而目前整个行业正在摸索类似DevOps的机器学习操作(MLOps)流程,大多数AI应用的部署都是由数据科学团队负责的。未来,传统IT管理员扮可能会更多地参与其中。
英伟达现已开放NVIDIA AI Enterprise的早期试用,企业必须先升级到VMware vSphere 7 Update 2才能申请,而且要使用英伟达认证服务器。获得NVIDIA认证系统认证的服务器包括戴尔科技、新华三、慧与、浪潮、联想和超微等高容量服务器。该套件将以永久许可证的方式提供,每个CPU插槽的价格为3595美元,额外的企业业务支持许可证年费为899美元。