极越 CEO「打假」端到端,没有 500 亿,只能造出「马路杀手」
我先说一句,我不认为现在市场上,有任何一家是真的端到端,绝对不可能。现在谁拿的出来 40 亿美金建一个超算中心。
月初,极越汽车 CEO 夏一平在一场媒体活动里聊到了端到端,他表示,如今国内还没有 100%的端到端,「都是营销的噱头,需要打假」。
最近这两个月,自主品牌们很喜欢把两个词叼在嘴边,一个是「AI」,另一个就是「端到端」。
在领航辅助驾驶确立了从「有图」到「无图」的技术路线迭代之后,「端到端」成为了智驾领域的新目标。
首先挑起战火的是小鹏。今年 5 月,小鹏汽车发布了国内首个量产上车的端到端大模型,号称能够做到「2 天迭代一次」,今年三季度就能实现「全国都能开,每条路都能开」。
很快,理想汽车又在 7 月份为 24 万多位理想 AD Max 车主推送了 OTA 6.0 无图 NOA (导航辅助驾驶)的升级, 并宣布在下半年实现端到端配合 VLM(视觉语言模型),来实现对于车辆的控制。
而在华为这边,董车会这个月体验了首发搭载华为 ADS 3.0 的享界 S9。在端到端的加持下,享界 S9 在「全国都能开」的基础上,获得了路边临停、自主过闸机等更高阶的智驾能力。
所以,这些所谓的端到端技术,是否真的只是营销的幌子,还是有着实质性的创新和进步?
纯视觉+端到端
我非常高兴地和大家宣布:全球唯二、中国唯一的纯视觉高阶智驾系统 ADS 来了!
夏一平「打假」端到端的勇气,主要来自于自家的智驾系统 ASD V2.0,是的,如今的极越 ASD 已经集合了「纯视觉」和「端到端」这两个关键词。
先来讲纯视觉。
上周,华为余承东在华为 ADS 基础版的发布会上提出了一个观点:纯视觉让智驾进入了全民时代。对于这个观点,夏一平表示非常认可,他总结了纯视觉方案的几大优势:
感知方式最像人类,迭代速度更快,算法上限更高,信息量更大,是最接近 L4 的自动驾驶方案。
去年我们刚发布的时候我就说过,纯视觉方案才是未来,事实也证明越来越多的品牌开始意识到纯视觉的领先性,并陆续加入到纯视觉的阵营中来。
夏一平表示,经过一年的迭代,极越的纯视觉感知能力已经超过了主流激光雷达,甚至在一些激光雷达较难完成的极限场景,纯视觉也能搞定,例如强降雨:
识别 200m 内的透明矿泉水瓶,并在 70km/h 的时速下刹停:
此外,夏一平还展示了一段智驾记录仪的画面,当时的车辆时速是 120km/h,前方则突然出现了一个倒掉的桩桶,「连人眼都很难看见」。处于 ASD 状态下的极越 07 成功在桩桶前实现了减速、打灯、绕行。
以往的经验告诉我们,纯视觉方案在暴雨中的表现往往难以保证,ASD 的雨战能力,很大程度上倚赖端到端大模型。
在极越看来,以往的智驾可以被称作「古典智驾」,而 2024 年之后的新智驾时代,则是纯视觉和端到端大模型的时代。
当下主流的智能驾驶方案,无论是高精地图方案,还是无图方案,都依赖于大量工程师根据各种各样的道路场景去编写规则,以期实现穷举所有道路状况和对应措施,实现尽可能的智能驾驶行为。
不过现实道路情况不仅错综复杂,不可能被穷举,同时现实世界也在不断变化,随时有新的道路场景出现。因而,此前智能驾驶研发是一场「无限战争」。
比如说,环岛进出这个场景,在 7 月份之前,还没有几家车企能够攻克,因为场景复杂,感知受限,规划决策困难。
简单来讲,端到端技术方案之前,几乎所有的智驾方案都可以归结为「感知 Perception — 规划 Planning — 控制 Control」三个大模块,这一套流程覆盖各种各样的场景,比如经典的三分法:高速场景,城区场景和泊车场景,一个个场景的背后,一行又一行的「代码战争」,不仅费钱,迭代的速度也很慢。
反观极越 ASD 的端到端,则完全覆盖了从感知到规控的所有环节。
百度智能驾驶事业群组首席研发架构师王亮透露,极越 ASD 的端到端实际上分为感知和规控两个部分,他们将其称为「两段式端到端」。
一段式端到端有点类似于 ChatGPT 背后的大语言模型技术,是一个「黑盒系统」,可以实现从原始传感器数据(如摄像头、毫米波雷达、激光雷达等)到最终的控制指令(如加速、刹车、转向等)的全流程处理,至于它如何处理的,即便是技术专家也无从得知。
「黑盒系统缺乏透明度,」王亮说,「我们很难控制这个系统输出的内容。」他表示,感知与规控分开的两段式端到端可以规避因感知结果错误导致的错误规划。
实际上,无论是小鹏、理想还是华为,目前无一例外都是分段式端到端,以华为为例,其端到端方案,仍有感知大网和预决策规划大网。
那么,夏一平口中的「假」,假在哪呢?
算力定上限
今年 3 月,随着特斯拉开始向 170 万车主推送 FSD,「Tesla FSD」在 Google 上的搜索频率大幅提升,得知自己即将等来这项配置的车主们,开始主动去了解 FSD 的能力边界。
随后,一个简单的改动,成功引爆了特斯拉的拥趸——随着 2024.3.10 版(12.3.3)的更新,FSD 终于摘掉了「Beta(测试版)」这顶帽子。
于 2021 年发布的 FSD Beta,在发布之初就遭到了不少攻击,许多人认为这一命名并不严谨。如今测试结束,特斯拉将后缀换成了另一个词——Supervised。
Supervised,意为「监督」,根据官方的说法,在驾驶员的监督之下,FSD Supervised 几乎可以在任何地方驾驶特斯拉,它能够主动进行车道变换、自主选择岔路口,在有其他交通参与者的情况下完成左转和右转。
特斯拉表示,最新的 v12 版本 FSD 是世界范围内第一个完全基于神经网络的端到端自动驾驶系统,端到端的加入,让 FSD 的能力迅速提升,目前这套系统已经能够自主驶出没有任何标线的停车场。
而这背后,是难以想象的巨额投入。
马斯克提到,特斯拉每年在 FSD 上的投入高达 20 亿美元,这无疑是一个烧钱生意。对于其他仍挣扎于利润的车企来说,掏不掏得起这个钱,是摆在面前躲不掉的话题,光是模型的训练,就是一笔天文数字。
特斯拉 FSD Beta V12 的视频训练需要多达 1.5 万块英伟达 H100 GPU,这让特斯拉上到了英伟达 2023 年第三季度采购数量榜单的前 12 位。尽管特斯拉在 2021 年发布了自家的超算 Dojo,该超算也在 2023 年成功量产,但目前特斯拉仍旧需要英伟达,仅有很少一部分训练用到了 Dojo。
英伟达的「大客户榜单」上同样有着中国品牌的身影。深耕智驾和 AI 许久的百度排名第 8——
这就是极越目前的优势所在,也是夏一平「打假」的根本原因。
再回顾一下他说的那句话:
我不认为现在市场上,有任何一家是真的端到端,绝对不可能。现在谁拿的出来 40 亿美金建一个超算中心。
重点根本不在于端到端,而是「40 亿美金」,这相当于 283 亿元人民币。算力就是白花花的银子。
「如果今天还有谁说,花几十亿就能干好智驾,我觉得这样做出来的产品,极大可能会成为马路杀手。」夏一平说。
目前,百度在极越智驾上投入的算力已经超过 5.5E FLOPS,作为对比,华为云端算力刚刚在今年 8 月上升到 5E FLOPS;蔚来与阿里云、英伟达合作算力在 1.4E FLOPS 左右;理想汽车和火山引擎合作算力为 1.2E FLOPS;小鹏与阿里云合作算力为 0.6E FLOPS。
极越可能只是一个刚刚从月销一两百提升到月锁单 3000 的新势力,但其背后的百度,不容小觑。