NVIDIA 秀肌肉,给 AI 以算力,也用算力做 AI
5 月 30 日,NVIDIA 股价创下新高,达到 404 美元,此时 NVIDIA 市值也正是超过 1 万亿美元,成为这个星球上第一家市值超过万亿美元的芯片公司。
如今近两个月时间过去了,NVIDIA 市值更进一步,目前稳定在 1.1 万亿美元附近,这一轮 NVIDIA 的股价突进,外界认为直接的推进剂只有一个,那就是 AI。
无论是 OpenAI 的 ChatGPT,还是国内的一些大模型,其算力来源都离不开 NVIDIA 提供的 Tensor Core GPU(区别于 CUDA Core GPU,这种 GPU 适用于人工智能深度学习需要的矩阵预算)。现在在 NVIDIA 官网,他们对自己的定义就是「人工智能计算领域的领导者」。
其实,除了像 A100 或者 H100 这样的 Tensor Core GPU 之外,NVIDIA 的自动驾驶芯片自然也是和 AI 紧紧相连,因为它要实时处理来自于激光雷达、毫米波雷达和摄像头等传感器带来的数据信息,进行实时的驾驶决策,这其中涉及到大量的人工智能计算。至于英伟达的老本行,消费级显卡这块,其实也是和 AI 离不开关系。
DLSS 3 、Reflex 和支持它的游戏们
2023 年 7 月 20 日,NVIDIA 在上海举办 GeForce RTX 40 系列媒体品鉴会,讲述的重点是新上市的 GeForce RTX 4060 系列显卡,以及 DLSS 3 技术,还有通过 RTX 显卡加速的各种应用。
DLSS(Deep Learning Super Sampling)技术用 AI 从低分辨率的输入中输出更高分辨率的帧,比如 DLSS 可利用 AI 将 1080P 画质提高到 4K,同时使用 1080P 的计算能力,这意味着性能的显着提高。没有 AI 和专用的 Tensor Core 加速,DLSS 是不可能实现的。
最新一代的 GeForce RTX 40 系列 GPU 支持 DLSS 3,DLSS 3 在 DLSS 2 超分辨率技术的基础上增加了AI 驱动的帧生成技术,以进一步提高性能,比如最新的《赛博朋克 2077》超速模式技术预览版支持完整的路径追踪。可以说,没有 AI 的进步,就没有开启全景光线追踪的可玩帧率。
在品鉴会线上,大半区域都留给了各种游戏,比如开放世界动作 RPG 游戏《鸣潮》,《鸣潮》是一款画质达到次世代水准的二次元动作游戏,在战斗中,我们可以操纵角色打出漂亮的高速连击;也可以面对敌人的凶猛攻势施展极限闪避;以及在部分特定的招式下,漂泊者们还可以见招拆招,针对 BOSS 的攻击进行拼刀逆势反击;还有 QTE协奏作用玩法等等,这些机制都大大增加了战斗的机动性。
作为库洛游戏和 NVIDIA 达成合作的首款游戏,本次提供的 Demo 支持了 DLSS3 技术,另外,它也支持 NVIDIA 的 Reflex,这是竞技游戏中测量减少延迟的技术。在《守望先锋:归来》等 FPS 射击游戏里面,我们点击鼠标开枪,到屏幕显示子弹命中敌人的毫秒级时间里,有非常多的「延迟」:
- 外设延迟:输入设备处理机械输入并将这些输入事件发送到 PC 所需的时间
- 游戏延迟:CPU 处理对游戏世界的输入或更改并提交新帧供 GPU 渲染所需的时间
- 渲染延迟:从待渲染的帧排队列齐到 GPU 完全渲染帧之间的时间
- PC 延迟:帧在 PC 上传输所需的时间。这包括游戏延迟和渲染延迟
- 显示延迟:GPU 完成帧渲染后,显示器呈现新图像所需的时间
- 系统延迟:涵盖整个端到端测量的时间 – 从外设延迟开始到显示延迟结束
NVIDIA Reflex 包括了两种主要的新技术:NVIDIA Reflex SDK 和 NVIDIA Reflex 延迟分析器,前者可以让游戏引擎即时完成渲染任务,从而消除 GPU 渲染排队现象,降低 CPU 反压;Reflex 延迟分析器能够监测到鼠标点击,并测量屏幕上的相应像素(比如枪焰)产生变化所需的时间,从而显著玩家操作到画面显示之间的延迟时间,抠出几毫秒到几十毫秒的优势。
除了《鸣潮》之外,NVIDIA 还展出了一系列支持 DLSS 3 和 Reflex 的游戏,其中包括《重生边缘》、《永劫无间》、《暗黑破坏神 IV》、《赛博朋克 2077》等等。
在这些较新的游戏之外,还有一款《传送门:序曲》RTX 版,《传送门》是一款 15 年前风靡游戏圈的解谜作品,对于现在的玩家来说,年纪颇大的这款手机看起来已经相当简陋,不过 NVIDIA RTX Remix 技术可以为游戏 MOD 爱好者提供简便且惊艳的光线追踪制作效果。
《传送门:序曲》RTX 版在原版的基础上做了材质和光线的重新制作,丰富了更多的画面细节,包括烟雾、水面效果等,让游戏的真实性更为突出。图像效果能够得到进一步降噪处理,让画质更为细腻。玩家可以以现代化的视角,来重新体验一款 15 年前的经典作品。它的发布和流行也意味着 RTX 的技术集成门槛非常低,即使是十几年前的老游戏,也可以轻松实现RTX化。这令很多游戏开发商欢欣鼓舞,他们可以将正在开发或已经发布且广受好评的游戏进行简单的改造就可以实现RTX的高级特效支持,包括逼真的光线追踪特效和 DLSS 3 加持下的超高帧率。
最能体现 Reflex 技术的游戏则是《无畏契约》, 结合 Reflex 鼠标和显示器,这个技术能够提供给电竞玩家全新的超低延迟电竞体验,在电竞区搭载的 GeForce RTX 4060 设备上可以实现 1080p ,fps 360+延迟低于10ms;1440p,fps 240+ 延迟低于20ms 的顶级电竞体验。
NVIDIA 助力本地 AI 创作
虽然大语言模型服务的算力基本上都在云侧,本地设备算力基本不影响体验,但是端侧的一些应用其实也相当考验端侧的 AI 能力,因而显卡性能某种意义上来说,也约等于端侧的 AI 性能。
除了展示以 DLSS 3 和 Reflex 等和 AI 相关的游戏技术之外,NVIDIA 助力本地 AI 创作也是活动现场重要的展示环节。
最典型的例子就是 B 站知名 UP 主特效小哥首发的采用 NVIDIA Studio 加速和 AI 辅助创作的 CG 作品《Flower》。
这个作品使用 RTX GPU 加速, NVIDIA Omniverse 和虚幻引擎渲染,Stable Diffusion 创作。针对运行在本地的 Stable Diffusion, GeForce RTX 40 系列显卡能够为用户提供较上一代相比高达 1.5 倍的图像生成速度,提升创作者使用 AI 进行创作的效率。
除了与 Stable Diffusion 这类开源 AI 工具的契合之外,NVIDIA 还展示了剪映专业版在 40 系显卡支持下,利用第八代 NVENC 编码器和 AV1 编码技术,提升 2 倍的视频导出速度。
在 NVIDIA Canvas 上,由 AI 和 NVIDIA RTX GPU 提供算力支持,用户将简单的笔触快速转换为逼真的风景图,现在 Canvas 支持 360° 全景图,用户不仅可以制作出精美的环绕式环境贴图,将其用作 3D 场景的背景,而且可以测试各种概念和氛围。
作为这一轮 AI 浪潮当中最大的受益者质疑,NVDIA 在本次活动上展示的显卡、AI 技术和 AI 应用其实是里用户最近的,也是用户感受门槛最低的,至于更远更强的自动驾驶和大语言模型等云侧 AI 计算,和用户还有一段距离,但正如蜂窝网络成就了移动互联网时代,遍布于云侧和端侧的算力,则是 AI 时代的动力来源,是 AI 的空气和水。