造「核弹显卡」,已经不能满足英伟达了
每年 8 月,英伟达都会在全球最重要的计算机图形会议 SIGGRAPH 上秀一秀「肌肉」。
五年前,英伟达 CEO 黄仁勋在 2018 SIGGRAPH 发布了首款支持光线追踪的显卡 Quadro RTX,这是英伟达自 G80 以来最重要的产品,把英伟达 GPU 从 GTX 时代推向了 RTX 时代。
彼时,英伟达还是一个非常纯粹的图形计算芯片厂商,满脑子想的都是怎样把 3D 渲染推向极致,其市值约为 814 亿美元,还没进入千亿俱乐部。
但到了 2023 年,英伟达经历了脱胎换骨般的巨变。3 月份的 GTC 大会上,老黄抛出了金句「AI 的 iPhone 时刻已经到了」之后,英伟达的股价便开始节节攀升,不断刷新历史新高。
这五年之间,英伟达的股价涨了近 10 倍,当前市值已突破 11000 亿,成为全球第一家市值突破万亿美元的芯片公司,也是当前市值仅次于苹果、微软、Alphabet、亚马逊的美股第五大科技股。
英伟达的显卡在市场上依然抢手,只是现在争相抢购 GPU 的不再是那群追求极致画面的游戏玩家,而是微软、Meta 等急着部署和训练大模型的科技巨头。
在昨晚的 2023 SIGGRAPH 上,你已经再难听到老黄说出游戏、实时渲染、3D 等耳熟能详的关键词,取而代之的是生成式 AI、数据中心、加速计算等概念。
这是全新的英伟达,也是一个全新的时代。
英伟达变了
我们可以从英伟达的财报解读这是一家怎么样的公司。
很长一段时间里,游戏业务一直是英伟达主营业务,直到 2023 年第一财季,在 PC 市场消费低迷和 AI 计算升温的双重影响下,英伟达的数据中心业务终于迎头赶上,成为了英伟达第一收入来源,这也标志着英伟达正式从传统的 GPU 供应商转型成了全球最大的算力供应商之一。
在这之后,英伟达的数据中心开始一路狂飙,其 H100、A100 等计算显卡成了 AI 行业的硬通货,一度出现严重短缺。有分析师推测,全世界可能需要 43.2 万张 H100 才能满足市场需求。
英伟达最新一季的财报显示,得益于企业们的强烈需求,英伟达的数据中心业务在 Q1 的营收约为 42 亿,同比增长了 14%,环比增长了 18%,超出华尔街的预期。
但如果你觉得英伟达只是碰巧被 AI 热钱砸中的幸运儿,那也太小看老黄了。
对英伟达来说,造「核弹 GPU」、投入 AI,这些不过是实现他们最终愿景的所要做的「准备工作」,英伟达真正想要做的,是建设一个真正的元宇宙。
最先进的「锄头」
工欲善其事,必先利其器,英伟达深谙此理。
今年 3 月,英伟达发布了 H100 NVL GPU、L4 Tensor Core GPU、L40 GPU 以和 NVIDIA Grace Hopper 四款 AI 推理芯片,以满足企业们日益增长的算力需求。
5 月的台北电脑展上,老黄发布了用 256个 NVIDIA GH200 Grace Hopper 超级芯片组成的超级计算机 DGX GH200。
而就在昨天,老黄又发布了搭载 HBM3e 内存新版 GH200,甚至连上一代的 GH200 还没正式出货,更新速度快得吓人。
新旧 GH200 之间的差异主要集中在内存上。
GH200 Grace Hopper 是世界上首个搭载 HBM3e 内存的 GPU 芯片,内存容量从每个 GPU 96 GB 扩展到 144 GB,增加了50% 。
HBM3e 内存是一种新型的高带宽内存技术,在运算速度上 HBM3e 能比 HBM3 运算速度快 50%,提供最高 5TB/秒的传输速率。 这让新版本的 GH200 运行 AI 模型的速度比当前模型快 3.5 倍。
其中,双配置的 GH200 内存能达到 282 GB 的 HBM3e 内存,相比上一代的容量增加了 3.5 倍,带宽增加了 3 倍。相比抢手的 H100,内存则增加了 1.7 倍,带宽增加 1.5 倍。
和上一代一样,新 GH200 也有着近乎夸张的拓展性。
得益于英伟达的 NVLink 互联技术, GH200 根据企业的需求组合成不同规模的形态,单卡、双卡、多卡服务器、机柜、甚至的超级计算机都没问题。
最终,GH200 可以组合成 256 张卡的 DGX GH200 SuperPod 超级计算机,拥有了 144 TB 的快速内存,每秒可以执行 10 的 18 次方次浮点运算。
如果这还不能满足你的需求,还可以用 Nvidia Quantum-2 InfiniBand Switch 交换机让多个 Nvidia DGX GH200 SuperPod 相连。
老黄打趣说道:「这下应该能带得动《孤岛危机》了。」
强大的拓展性为 GH200 的未来提供无限可能。
换而言之,想要提升运算速度,那么只需要添置更多的服务器机柜就能达成。这非常有利于在未来黄仁勋认为,未来 GH200 的典型应用场景就是大语言模型,并且「加速运算」、「AI 运算」将逐渐取代传统 x86 GPU的「通用计算」。
举个例子,过去1 亿美元预算,只能够建设一个小的数据中心,购买 800 个 x86 GPU,并用 5 兆瓦的电力来运作。
但同样的预算下,选择加速计算的 Grace Hopper 只需要消耗 3 兆瓦的电力,而且数据吞吐量还能提高一个数量级。而如果以同样的工作量来计算,Grace Hopper 计算方案只要 800 万美元。
说到了这里,老黄又抛出了他的名言:「你买的越多,省的也就越多。」
官方预计,新款 GH200 需要等到 2024 年的第二季度上市。搭载 HBM3 内存的 GH200 将按原计划在今年下半年陆续出货。
当然,对于个人开发者和小团队来说,要搭建动辄上亿的数据中心并不现实,为此英伟达「贴心」地推出了集成先进 RTX 技术的新一代工作站显卡:NVIDIA RTX 5000 、NVIDIA RTX 4500 以及 NVIDIA RTX 4000。
其中,作为旗舰级别 GPU,NVIDIA RTX 5000 采用了第 4 代 Tensor Core 和第 3 代 RT Core,相比上一代 GPU,单精度浮点运算性能提升了 2 倍,达到了 90 TFLOPS 的峰值,配备高达 32GB 的 GDDR6 视频内存,支持 ECC 错误校验,适用于高端工作站、数据中心和云游戏。
而作为中高端级别 GPU,NVIDIA RTX 4500 配备 24GB GDDR6 视频内存,也支持 ECC校验。
相比前一代产品,NVIDIA RTX 4500 光线追踪性能提升 1 倍,AI 处理性能提升 2 倍,其性价比非常突出,适合创意专业用户、小型工作站等使用场景。
NVIDIA RTX 4000 则采用了与 RTX 4500 相同的 GPU 核心,配备 20GB GDDR6 视频内存,其光线追踪和 AI 计算性能都有大幅提升。
目前全新的 NVIDIA RTX 5000 GPU 已经发售,而 NVIDIA RTX 4500 和RTX 4000 GPU 将在今年下半年陆续出货。
最肥沃的「土地」
套用农夫山泉的广告词,我们可以这样介绍英伟达最新的 AI 策略:
我们不生产 AI,我们只是 AI 的搬运工。
众所周知,本地配置 AI 模型是件繁琐、复杂的差事,为了帮助开发人员解决这个难题,老黄宣布,英伟达将推出「AI Workbench」。
简单来说,AI Workbench 可以一站式地为开发者提供配置 AI 模型所需的框架、工具开发包等环境,直接就可以开始创建项目。
老黄在现场举了一个非常形象的例子。
比如说,公司需要配置一个 Stable Diffusion 模型来作画,但是你既没有硬件设备,又不懂得怎么配置模型。
不用着急,这时候你只要打开 AI Workbench,选择一个 4 个 RTX 6000 Ada GPU 的云工作站,然后就能一键配置 Stable Diffusion 模型。
要是你对生成出来的图片不满意,你还可以自己上传图片,重新训练模型后再生成。
不用一分钟,一张像模像样的图片就生成出来了,全程你不用操心其他问题,因为 AI Workbench 已经把别的都准备就绪了。
英伟达宣布,将会与 AI 开源平台 Hugging Face 建立战略合作关系,将这一技术也被应用到了企业端。
只需在 Hugging Face 平台中简单点击几下,开发者即可轻松地将生成式 AI 项目从笔记本电脑到工作站,再转移到数据中心或云端,最终借助 NVIDIA DGX 云 AI 超级计算资源来训练 AI 模型。
老黄强调,通过与 Hugging Face 的合作,英伟达最先进的 AI 技术可以为各行各业提供支持。企业也可以利用开源社区的力量,按照企业的规划需求推进 AI 的训练。
最宏大的「梦想」
介绍完了软硬件平台的更新,老黄长吁一口气说道:「让我们聊聊今晚最重要的话题——OpenUSD。」
OpenUSD 对大多数人来说应该是一个陌生的名词。OpenUSD 是皮克斯(是的,拍动画的那个皮克斯)在 2015 开源的一个框架,在此之前皮克斯已经使用这个框架超过 10 年,我们看过的很多动画都是基于 OpenUSD 框架制作的。
OpenUSD 可以理解为是一个创建 3D 世界用于描述、组合、模拟和合作的通用标准,老黄将之比作为「HTML 之于 2D 网页的意义」「真正地把整个世界凝聚了在一起」。
就在上周,皮克斯、 Adobe 、苹果、 Autodesk、英伟达,以及 JDF 宣布成立 OpenUSD 联盟(AOUSD) ,以促进 OpenUSD 标准化、开发、演变和发展。
为什么这个名不见经传的名字能让这么多不同领域的巨头公司聚集在一起?这要从 3D 工作的工作流程说起。
3D 工作流程非常精细且复杂,例如设计师、艺术家和工程师都在 3D 工作流程的某个部分上有所专长,如建模、纹理、材料、物理模拟、动画、布景设计和合成等。
由于他们使用的工具(PS、AutoCAD、Blender等)是由不同的公司开发的,很多文件格式并不能互相兼容,导致用户要频繁地导出、转换格式、导入,繁琐不说还容易损坏内容。
OpenUSD 正是为了解决这些问题而生的技术,通过 OpenUSD,Adobe Stager、Houdini、Maya、Blender、Renderman、Pixar 的 Minuteman 和 Epic 的 Unreal Engine 等工具都能互通数据,发挥出更强大的作用。
随后,老黄郑重宣布英伟达的 Omniverse 将成为第一个完全为 OpenUSD 打造的平台,从底层的数据库到引擎系统,每一行代码都是以 OpenUSD 为中心设计的。
不仅如此,英伟达还一同推出了 RunUSD、ChatUSD 和 DeepSearch 等 API,将进一步降低开发者构建基于 OpenUSD 应用的门槛,让 3D 工作流程可以与 AI 等技术结合起来。
举个例子,全球最大的广告公司 WPP 为比亚迪的腾势 N7 制作的广告,就是在「元宇宙」拍的。
WPP 把腾势 N7 的高精 CAD 数据上传到了 Omniverse 上,制作了一个数字孪生汽车,然后 WPP 的艺术家可以在 Omniverse 的环境里进行创作。
例如可以调用 ChatUSD API,只需要输入一句话描述,就能让 AI 生成不同的背景环境,从而创作出用于全球营销活动的数千条个性化的内容片段。
元宇宙和生成式 AI 就像是天生一对的搭档,当两者相遇后,其价值将会被指数级放大,而 OpenUSD 技术让这一切变为了可能。
老黄认为,未来还会有越来越多的产业需要经历数字化转型,Omniverse 和人工智能即将会成为这些企业们完成数字化转型时最重要的工作流。
而要搭建 Omniverse 和人工智能,自然离不开强大的算力支持,这便是英伟达真正的形态:
以 GPU 为骨、AI 为肤,组成推动工业数字化转型最有力的手。