为您查询到 篇文章
7 月 25 日,清华大学与生数科技联合研发的 Vidar 模型,首次让通用视频大模型长出了「手脚」,通过少样本泛化能力,实现从虚拟的 Dream World 到真实世界 Real World 物理执行的关键跨越。
官方表示,这项创新不仅打破了传统具身智能的数据桎梏,更开创了「虚实互通」的全新范式,有望真正实现具身智能的 scaling law。
据悉,Vidar 是全球首个基于通用视频大模型实现视频理解能力向物理决策系统性迁移的多视角具身基座模型。该模型创新性地构建了支持机器人双臂协同任务的多视角视频预测框架,在保持 SOTA 性能的同时,展现出显著的少样本学习优势。