AR 有了新“看法”，会不会更加智能？

本文由 ARinChina（www.arinchina.com）原创，转载请联系 ARinChina（微信 ID：arinchinaservice）

如果 AR 可以像人一样“看懂”现实世界，并根据情况将自己的“想法”进行“表达”。那么，世界将是怎样？

我们先来欣赏一段视频。

（腾讯视频）

视频中人类生活因 AR 的帮助更加便利。那么，要想达到这种效果，AR 应用必须智能化。要使 AR 智能化，必须先使 AR 的“视觉”智能化。

计算机与小孩的“看图说话”大 PK

1835015711982

这是《爱丽丝漫游奇境记》中疯狂茶话会一幕，当一个小孩描述这幅图时，他能立刻识别出图中的一些简单元素，比如：

“房前的一棵大树下，放着一张桌子。一只兔子和戴帽子的人坐在桌旁喝茶。桌子很大，他们三个都挤在桌子的一角……”

然而计算机在描述这幅图时，它不懂什么是“三月兔”，谁是“爱丽丝”，它只会以立体几何的形式描绘这些内容。

1836151511982

计算机这种简单的描绘方式，使得 AR 应用目前必须提前设定识别目标才能进行交互。

人是怎样“看”世界的？

经过 5.4 亿年，人类才形成对世界的认识，其中大部分努力用在了大脑视觉处理机制的开发，而不是眼睛本身。也就是说视觉始于眼睛，却发生于大脑。

1981 年的诺贝尔生理学及医学奖获得者——休伯、斯佩里和韦赛尔——研究发现，视皮层细胞解释视网膜的编码脉冲信息的能力，是在孩子出世后直接发育形成的，这种发育的一个先决条件是：眼睛必须受到视觉刺激。在这一期间，如果一只眼睛闭上几天，视皮层将发生永久性的功能变化。

这意味着：大脑的高度可塑性是从一出生就开始的，大脑在这段时期接受丰富多彩的视觉刺激十分重要。

如果把人的眼睛看作一对生物相机，它们大约每 200 毫秒就能拍一张照片（这是眼睛运动的平均时间），那么 3 岁小孩看到的图像是数以亿计的。人类大脑通过观看无数张图像后才对物体有了概念。

为什么计算机做不到？

斯坦福大学的计算机视觉专家李飞飞曾在 TED 大会上举了一个很好的例子：

我们可以用简单的几何形状来描绘一只猫。

1837229111982

但是对于一些形状诡异的猫呢？像这些。

1837562111982

1838206511982

像家庭宠物这样简单的物种，在模型上都千差万别，大千世界更是千姿百态。李飞飞和她的团队在生物识别方面投入了大量心血，也没能找到一个好的算法让计算机准确识别出一个物种。

于是他们不再专心寻找优秀的识别算法，而是把注意力放在了人类视觉的形成上。

模仿人类看世界

我们从出生就开始不断通过眼睛采集图像，大脑通过大量图像的训练后，才形成了我们现在的视觉系统。那么，如果我们把计算机当做一个婴儿来培养，它会不会像人一样聪明了呢？

李飞飞和她的团队就是这样做的。他们建立了一个含有 1500 万张照片的数据库——ImageNet，通过记住大量图片来教计算机认识物体。

1845194511982

不过，计算机可以通过摄像头来模拟人眼采集图像，却无法从拍摄到的图像中识别出有用的信息。

庆幸的是，Kunihiko Fukushima、Geoff Hinton 和 Yann LeCun 在上世纪七八十年代开创了“卷积神经网络”，这是一个非常复杂的模型。该模型中最基础的运算单元是“神经元式”的节点，就像大脑由上十亿个紧密联结的神经元组成。每个节点从其它节点处获取输入信息，然后再把自己的输出信息交给另外的节点。

1846118111982