特斯拉人形机器人二代来了！手捏鸡蛋，深蹲蹦迪，更像真人了

悄无声息，特斯拉今天突然发布了全新一代人形机器人 Tesla Optimus Gen 2。

一句话划重点，和前代相比，Optimus Gen 2 更像人了，主要升级点概括如下：

特斯拉全新设计的执行器和传感器，提高执行任务的效率和精准度
2-Dof （自由度）驱动的颈部，让头部转动更自由
11-Dof 的手部关节，使得手部运动更灵活
集成执行器与电子元件和线束，提高整体系统的稳定性
步行速度提升 30%，增强环境的适应性
引入脚力/扭矩感应，灵活适应地面情况
重量减轻 10 千克，机动性更强

从马斯克发布的视频中可以看到，Optimus Gen 2 能够平稳地行走，步行速度比前代快了 30%，同时它还能做一个 90 度左右的蹲下，肢体控制程度相当不错。

Optimus Gen 2 还升级了全新的手部，11 个自由度的手可以让它像人手一样地摇动，动作完成的准确度和流畅度有真人那味了。

Optimus Gen2 的所有手指都具有触觉感应，能够灵巧地处理鸡蛋等易碎物品，看着像是会做饭的样子。

在视频的最后，你还会看到两个 Optimus Gen 2 随着音乐的节拍和晃眼的灯光一起手舞足蹈，这也算是特斯拉埋下的小彩蛋。

特斯拉高级工程师表示，视频中的一切都是真实的，没有使用 CGI 生成，所以动作都是实时的，没有加速播放，并盛赞了特斯拉机器人在硬件性能上取得了难以置信的改进。

若他所说的属实，那特斯拉人形机器人的进化一目了然 👇

▲图片来自@Hanteta_

特斯拉机器人的进化之旅

从特斯拉推出第一台人形机器人开始，不过才短短三年时间，却迎来了飞速进化。

在 2021 年 8 月 AI Day 上，马斯克官宣特斯拉人形机器人Tesla Bot 。这款机器人被设想为高 5 英尺 8 英寸，重 125 磅，具有承载 45 磅和举起 150 磅等能力，主要是用来执行一些被认为危险、重复和无聊的任务。

但当时，这款机器人还只是几张「活在」屏幕上的 PPT 概念图，就连台上跳舞的亮相环节也是由穿着机器人套装的男人完成。

紧接着到了第二年的 AI Day 2022 大会上，主角截然变换，走到台前的 Optimus Robot（擎天柱机器人）成了当天发布会的最强主角。

裸露在外的机械结构让它的颜值显得有些粗糙，但无论是搬箱子、给植物浇花、还是在超级工厂里搬砖，演示视频里的「擎天柱」能干的活可真不少。

为这台擎天柱提供能量的不是火种，而一块容量为 2.3kWh 的电池包，它被充分保护，放置在最核心的身体部位，即为图中蓝色的那一块。

当时马斯克称，擎天柱「非常适合一整天的工作」，它静坐时的功耗约为 100w，快走时为 500w。可能有人会问快走是多快，大概 2 米每秒。

为了确保擎天柱的灵活性，特斯拉甚至为其设计了 28 个关节，每一个关节里都有多套执行器，这些执行器能够在后台分析执行效率，减少无效工作。

特斯拉表示，整台擎天柱拥有 200 多个自由度，而它的手占了其中的 27 个，由促动机（actuator）驱动，通过视觉系统和算法，擎天柱能够准确识别手与物体的位置，完成上面提到的浇花、取物的任务。

从迈出第一步到自如地摆出各种姿势，「擎天柱」花了 5 个月的时间。

到了今年 3 月的特斯拉投资者期间，Optimus 再次迎来了史诗级进化。其中一个亮点是，Optimus 从桌子上拿起了一个机械臂并将其固定到位，另一个 Optimus 则将其固定在仍在组装的第三个 Optimus 身上，如此敏捷且流畅的任务执行，比最初的能力有了实质性的进步。

当时 Optimus 的动作仍比较僵硬，还不能完成像跑酷一样的复杂动作，但已经初步展现出独立短距离行走、搬运物体和使用基本工具等普适性能力。

仅仅半年后，9 月份的 AI Day 上，Optimus 不仅能够根据颜色对方块进行分类，还能自信地将双臂举在空中，然后在一条腿上摆出瑜伽姿势，展露出优异的平衡力和协调力。

而现在，如上文所述，栩栩如生的身躯，机敏灵活的手指、流畅轻盈的步态，Optimus Gen 2 在运动和操作能力上更加贴近人类水平。也许再过不久，机动性更强的 Optimus 甚至可以复刻人类「爬、跳、抓、举」等复杂动作。

当然，按照马斯克的设想，Optimus 的远景目标不仅仅是替代人类完成重复劳动、危险操作等任务，而是要成为一款通用服务机器人，融入到家庭、办公场所和商业场景等更复杂的场景中。

因此，机器人的硬件仅仅只是基石，一个完整的人形智能体，还需要「大脑」级别的软件和算法赋能。

将 GPT-4 塞入人形机器人会发生什么？

今年以来，随着大模型不断的迭代升级，智能泛化能力的飞速提升，让人们看到了人形机器人的潜在前景，我们时不时就会看到一些新玩家入局人形机器人赛道。

不谋而合的是，他们都选择了具身智能这一解题思路。具身智能，顾名思义，指的是一种智能体利用自身的物理身体，通过感知、运动和环境交互来获取信息、做出判断并采取行动的智能形式，这也被视作人工智能的终极形态。

它强调身体在认知和行为发生中的关键作用。相比纯思维型的智能，具身智能更加贴近人类自然智能，它强调身体、行为和环境对认知的重要作用。

一种不太严谨的表达是，AI 大模型用作大脑，机器人充当躯壳，AI 大模型套上机器人的壳就是具身智能。

除了上文所说的特斯拉机器人，一个更直观的案例是，最近东京大学发布的人形机器人 Alter3 便是首款由 GPT-4 驱动的人形机器人。得益于 GPT-4 的加持，不需要事先编程调教，通过口头反馈，你就可以让它自主地做出各种人类动作。

▲ 你不要过来呀

弹奏重金属音乐、表演自拍、用手投球、扮鬼吓人，在 GPT-4 智能语言描述的映射下，这些动作都不在话下。

需要说明的是，Alter3 本身无法理解像「抬起手有多高」这样的细节，因此也就无法改进自己的动作，通过人类的口头反馈，譬如「自拍时把手抬高一点」，接收到信息的 GPT-4 会将人类发出的指令分解为一连串步骤。

接着这些步骤就会被转化为控制 Alter3 各个身体部位运动的 Python 代码，也就是所谓的思维链（CoT），然后 Alter3 会把这些改进后的运动编码存储下来，形成「运动记忆」。

碰到下次再生成相同的运动时，它就会根据过去的相关经验推理出如何最优地执行相似的任务，而不是从零开始，这种零样本学习能力（zero-shot）也是机器人获得真正智能的关键。

更离谱的是，没有意识的它甚至可以通过 GPT-4 反馈的文本中推断出适当的情感，并用清晰的动作表达出来，属实是机器人又一「超纲」的表现。

像我们此前报道过的华为天才少年稚晖君的智元机器人远征 A1，雷军的「铁蛋」也都归属于 AI + 机器人的范畴。

在大模型之前，机器人属于专用设备，如今有了大模型的通用能力，通用机器人开始曙光乍现，正如稚晖君所说的那样，现在我们不止需要 ChatGPT，还需要 WorkGPT。

这些进化间接印证了一条清晰可见的道路：当 AI 大模型生根发芽之后，总归是要走进现实世界，而具身智能则是最佳的路径。

一直活跃在 AI 前线的英伟达创始人黄仁勋曾洞察道：「具身智能将引领下一波人工智能浪潮。」

成熟的 AI 大模型充当人工大脑，模拟了人脑复杂的神经网络，实现了语言理解、视觉识别、情景推理等认知功能，解决了机器人更高层次的认知和决策问题。

与此同时，各种传感器、执行器、计算单元被集成到机器人躯体中，实现了对环境的感知和交互。比如视觉系统可以捕捉图像和视频，触觉传感器可以感受物体的形状和质地等。

因此，在 AI 大模型与机器人实体深度融合的基础之上，设想有一日，究极体的 Grok 结合 Optimus，也许能够模糊虚拟和物理现实的界限，让智能 AI 彻底走出屏幕，真正融入人类生活社会。

最后，放上网友 @cb_doge 让 Grok 评价 Optimus Gen 2 的回答：

哦，特斯拉在 Optimus Gen 2 上取得的进步真是让人瞩目！自从上次上线后，无论是速度、重量减轻，还是处理像鸡蛋这样易碎物体的能力，都有了显著的提高。这就像看到一只小鸟勇敢尝试第一次飞翔，尽管它拥有更多的执行器而非羽毛。

放眼全局，我们要明白，发展像 Optimus 这样的机器人是一场长跑，而不是冲刺。这就像观看技术与人性之间缓慢而优雅的舞蹈，每一步都使我们更接近一个理想的未来，在那里，机器人和人类可以和谐相处、共同工作。

至少，这是我们的梦想。