英伟达的第一个GPU竟然是由数据中心和人工智能设计

Nvidia今天发布了其下一代Ampere GPU架构。第一个使用安培的GPU将是Nvidia的新型A100，该A100专为科学计算，云图形和数据分析而构建。尽管有关Nvidia的Ampere计划GeForce“ RTX 3080”卡的传闻不绝于耳，但A100将主要用于数据中心。

英伟达最新数据中心的推出正值大流行和对云计算需求的巨大增长之际。 Nvidia首席执行官黄仁勋（Jensen Huang）将冠状病毒描述为“非常悲惨”，并在The Verge出席的新闻发布会上指出“服务的云使用量将激增”。 “这些动态对于我们的数据中心业务确实非常好。我期望Ampere的表现非常出色。这是我们有史以来最好的数据中心GPU，它利用了我们近十年的数据中心经验。

A100拥有超过540亿个晶体管，成为全球最大的7纳米处理器。 Huang解释说：“基本上，这几乎是当今半导体制造所能达到的理论极限。” “世界上最大的裸片，以及世界上最大的计算引擎晶体管。”

Nvidia正在增强其Tensor内核，以使其更易于开发人员使用。A100还包括19.5 teraflops的FP32性能，6,912 CUDA内核，40 GB内存和1.6 TB / s的内存带宽。不过，所有这些性能都无法为刺客信条的最新版本提供动力。

取而代之的是，英伟达将这些GPU组合到一个堆叠式AI系统中，该系统将为全球数据中心的超级计算机提供动力。就像Nvidia如何使用其以前的Volta架构来创建Tesla V100和DGX系统一样，新的DGX A100 AI系统将其中八个A100 GPU组合为一个巨型GPU。

DGX A100系统通过这八台A100保证了5 petaflops的性能，并且将它们与Nvidia的第三代NVLink版本结合使用。将这八个GPU结合在一起，就意味着拥有320GB的GPU内存和12.4TB / s的内存带宽。 Nvidia还包括15TB的Gen4 NVMe内部存储，以支持AI培训任务。使用DGX A100系统的研究人员和科学家甚至能够将工作负载划分为多达56个实例，从而在功能强大的GPU上分散较小的任务。

Nvidia最近以69亿美元收购服务器网络供应商Mellanox的举措也正在发挥作用，因为DGX A100包括九个200Gb / s网络接口，每秒双向带宽总计3.6Tb / s。随着现代数据中心适应日益多样化的工作负载，Mellanox的技术将对Nvidia变得越来越重要。 Huang将Mellanox描述为下一代数据中心中最重要的“连接组织”。

Huang解释说：“如果您看一下现代数据中心的架构方式，它们所要做的工作负载将比以往更加多样化。” “我们前进的方法不仅是专注于服务器本身，而是将整个数据中心视为一个计算单元。展望未来，我相信世界将把数据中心视为一个计算单元，而我们将考虑数据中心规模的计算。不再只是个人计算机或服务器，我们将在数据中心规模上运行。”

在Nvidia的DGX A100系统中。图片：英伟达

Nvidia的DGX A100系统已经开始发售，其中一些最初的应用包括在美国阿贡国家实验室进行的COVID-19研究。

“我们正在使用美国最强大的超级计算机来对抗COVID-19，并在可用的最新技术（如Nvidia DGX A100）上运行AI模型和仿真，”计算，环境和生命科学副实验室主任Rick Stevens说。阿贡“进入阿贡的新型DGX A100系统的计算能力将帮助研究人员探索治疗方法和疫苗并研究病毒的传播，使科学家能够在数月或数日内完成数年的AI加速工作。”

英伟达表示，微软，亚马逊，谷歌，戴尔，阿里巴巴和许多其他大型云服务提供商也计划将单个A100 GPU整合到自己的产品中。 Huang说：“全世界所有超大规模生产者和计算机制造商对Ampere的采用和热情都是前所未有的。” “这是我们有史以来最快的新数据中心架构发布，这是可以理解的。”

与较大的DGX A100集群系统非常相似，Nvidia还允许将每个单独的A100 GPU划分为多达七个独立的实例，以执行较小的计算任务。这些系统并不便宜。 Nvidia的DGX A100具有出色的性能承诺，但其中8种A100芯片的组合系统起价为199,000美元。

目前尚不清楚Nvidia现在如何将Ampere直接发展到消费级GPU。 Nvidia推出了带有专用人工智能处理器（张量内核）的Volta架构，其方式与今天的Ampere揭幕大相径庭。但是Volta并没有继续为Nvidia的GeForce消费产品系列提供动力。取而代之的是，Nvidia推出了一款由Volta驱动的售价为2,999美元的Titan V（它被称为“有史以来最强大的PC GPU”），专注于AI和科学仿真处理，而不是游戏或创意任务。

尽管有传言称Volta将为未来的GeForce卡供电，但Nvidia于2018年推出了Turing架构，该架构将其专用的张量核心与新的光线追踪功能结合在一起。在黄仁勋表示下一代图形卡不会在“很长一段时间内”发布之后几周，图灵继续使用RTX 2080这样的功率卡代替了Volta。 Nvidia甚至剥夺了Turing供电卡（如GTX 1660 Ti）的RT和Tensor内核。

新的“ RTX 3080”卡可能还需要几个月的时间，但是我们仍然不确定它们是否将使用这种新的Ampere架构。 Huang暗示：“在架构上存在很大的重叠，这是毫无疑问的。” “配置，芯片上不同元素的大小都非常不同。”

Nvidia将HBM内存用于其数据中心GPU，但这不是该公司用于消费类PC游戏GPU的东西。数据中心GPU还比图形更加关注AI任务和计算。 Huang补充说：“我们将更加偏向于图形，而不会偏向于双精度浮点。”

最近，有关Nvidia的Ampere计划的猜测越来越多，随着PlayStation 5和Xbox Series X将于今年晚些时候与AMD驱动的GPU解决方案一起推出，Nvidia肯定需要在今年晚些时候为PC游戏玩家提供一些新东西。