Meta 推出文生 3D 模型「重磅炸弹」,一秒生成 3D 素材
Meta 公司官方发布研究论文,介绍了一个名为 Meta 3D Gen 的文生 3D 模型系统,能够在不到一分钟的时间内从文本生成较高质量的 3D 资产。
技术亮点:
- 高速生成:3DGen 可以在短短 30 秒内生成初步的 3D 资产,随后的纹理细化阶段仅需20秒,显著提高了 3D 资产的生成效率。
▲ 不同提示词生成的 3D 模型
- 物理基础渲染(PBR)支持:3DGen 支持 PBR,这对于重现 3D 资产在现实世界应用中的光照效果至关重要。
- 高保真度:通过专业3D艺术家的评估,3DGen 生成的 3D 模型在复杂文本提示下的忠实度和视觉质量上超越了现有的商业和非商业方法。
▲ 该技术与其他技术生成内容的细节对比
生成逼真 3D 模型,仅需两步
论文介绍了 Meta 3D AssetGen 相比传统的3D 对象生成方法,采用了的两阶段设计生成 3D 模型:
具体而言:
第一个阶段:文本到图像阶段(下图中蓝色部分):根据文本提示生成 3D 网格和纹理,预测一个 6 通道图像,该图像描绘了具有阴影和反照率颜色的物体的 4 个视图。
第二个阶段:图像到 3D 阶段包括两个步骤。
首先3D 重构器(称为 MetaILRM)输出一个三维的 SDF 场,转换为具有纹理 PBR 材质(下图中橙色的部分)的网格。
然后通过纹理细化器进一步增强这些材质,恢复从输入视图中可能丢失的详细信息(下图中绿色部分),从而提升模型的视觉质量和细节表现。
多个指数量化材质及光线
在技术实现上,Meta 3D AssetGen 使用具有不同超参数的 VolSDF 公式来渲染 SDF 值,获取3D点的不透明度。
训练过程中,通过最小化多视图渲染损失来优化模型,但由于物理上精确的渲染非常昂贵,研究者通过直接使用原始的 PBR 场来监督预测的对应项,从而绕过了复杂的渲染方程。
▲ Meta 新技术生成的材质、风格各异的羊驼
这种 PBR 指的是「Physically-Based Rendering」,即物理基础渲染。
它模拟了光在物体表面的物理行为,考虑了光照、材质属性和环境因素对物体外观的影响,能够根据物体表面的不同特性,如粗糙度、金属感等,来计算光线的反射、散射和吸收。以实现更加真实和准确的渲染效果。
在Meta 3D AssetGen中,PBR材质被用来增强3D模型的真实感。具体来说,PBR材质包括以下几个关键属性:
- 反照率(Albedo):指物体表面的颜色和亮度,它决定了物体在不同光照条件下的外观。
- 金属感(Metalness):表示物体表面的金属程度,金属感高的物体会有更明显的金属光泽。
- 粗糙度(Roughness):描述物体表面的平滑程度,影响光线在表面的散射范围,粗糙度越高,光线散射越广,高光部分越柔和。
▲ 使用提示词「A cat made of MATERIAL」生成的模型
PBR 材质实际上集成了代表 AI 生成 3D 内容的重大进步,被认为可能弥合 AI 生成内容与专业 3D 工作流程之间长期存在的问题,将 AI 创建的素材无缝集成到现有工作流程中,从而有可能加快各行业虚拟环境和数字孪生的创建速度。
▲ 通过文字提示渲染出龙蛋和熊的外观纹理
研究人员还推出了一个由连续网络组成的 Meta 3D TextureGen 技术,通过在 2D 空间中将文本生成模型与 3D 语义条件结合,使其融合成完整且具有高分辨率的 UV 纹理映射,在短时间内为复杂几何体生成高质量的纹理。
▲ 3D 纹理生成技术对比:最左侧为 Meta 的新方法,显示出更鲜艳的色彩和更复杂的细节
在实验部分,研究者使用了 140,000 个由 3D 艺术家创建的多样化语义类别的网格数据集进行训练。还进行了广泛的用户研究,将 Meta 3D AssetGen 与行业内其他支持 PBR 的文本到 3D 方法进行了比较,结果表明 Meta 3D AssetGen 在视觉质量和材料控制方面具有显著优势:
AssetGen 在倒角距离方面实现了 17% 的改进,在 LPIPS 方面实现了 40% 的改进,并且与速度相当的最佳行业竞争对手(包括支持 PBR 的竞争对手)相比,其人性化偏好度高出了 72%。
是 Maginative 的创始人兼主编 Chris McKay 这样评论:
这项技术的潜在应用是巨大的。游戏开发人员可以使用 3D Gen 快速制作环境和角色原型,从而显著加快开发过程。建筑可视化公司可以根据文本描述生成建筑物和内部的详细 3D 模型,从而简化设计流程。在虚拟和增强现实领域,3D Gen 可以快速创建沉浸式环境和对象,从而有可能加速元宇宙应用程序的开发。
显然 Meta 的这种新技术为 3D 模型在不同光照环境下的真实感呈现提供了可能,在 3D 图形、动画、游戏和 AR/VR 领域具有巨大潜力,对游戏、影视甚至产品开发都会有长足的帮助。
这或许会成为另一个层面的世界模型的第一步。