Depth-VR 创始人李今，VR 产品有可能像鼠标一样便宜

本文来自爱范儿旗下创业社区 MindStore 的“MindTalk 线场”栏目。如果希望参与到 MindStore 栏目报道，或者有相关项目推荐，请将产品提交到 MindStore.io。

最近，VR 成为最热门的科学技术，各行各业争相开发 VR 产品，期望掌握科技变革的先机。

在这股 VR 潮流刚兴起时，Depth-VR 公司早已先发制人，在 2013 年就开始研发 VR 的位置跟踪系统。

然而在最开始，Depth-VR 只想做类似亚马逊 Fire Phone 的一套系统，主要的原理是通过红外线跟踪用户的眼睛，再生成视觉的图像，但产品并没有成功。

2014 年 VR 开始爆发，Depth-VR 毅然转变方向专注研发 VR，却在中间不小心走一段弯路，跑去做头盔，跟魅族联合推出轻便版手机 VR 头显“画风”。

Depth-VR 的 CEO 李今在 MindTalk 分享时坦言，创业公司的身份，让他们一直频繁地转变方向。但是对光学的位置跟踪技术，即现在大热的 VR 交互技术，是他们从 2013 年就开始坚持研发的方向。

depth VR1

（图片来自嘉宾分享）

做 VR 的缘由，最初来自于玩游戏时的异想天开

Depth-VR 如今能站在交互领域的领先地位，最初却只是来源于一个异想天开的想法。

大学时候就喜欢玩 CS 的李今，迷恋上制作 3D 游戏。但是最开始用 3D-MAX 做 3D 游戏时，跟大部分初学者一样，他遇到建模困难的问题。

ifanr-1 3

（图片来自嘉宾分享）

“ 3D-MAX 的界面比较复杂，一般人上手太困难，学习周期需要三四个月的时间。学软件之难，甚至会让使用者把大部分精力投放在三维建模上，而不是创作上，这是非常不合理的。”

于是李金开始思考，怎么改变建模交互的方法。

一心要把 3D 简化实现，无奈想法错误终落空

2011 年，Depth-VR 开始深入研究 3D 建模软件，发现三维建模的工作流程之所以复杂，是因为操作的本质是用二维平面输入建立三维的信息。

于是 Depth-VR 打算做一个便宜廉价的输入系统，它能够代替鼠标捕捉手的空间位置。他们甚至会幻想像《钢铁侠》里面做模型的绘制，所有建模操作能在空中操作，当时 Depth-VR 的构想跟 AR 相关。

ifanr-1 7

（图片来自嘉宾分享）

“我们当时就想做一个三维的输入系统，让计算机能够知道你想表达的是一个什么意图，非常直接的表达你三维的操作，而不需要通过鼠标去表达。 ”

不幸的是，李今不久后发现他们的想法是错误的，三维建模系统的重点根本不在输入，而是视觉输出的可视化这部分，最后项目只能暂时搁置。

转变方向，把过去的思路和技术积累用在 VR 上

直至 2014 年 Oculus 的出现，Depth-VR 才受到了启发，尝试把从前的思路和技术积累用在 VR 上。

ifanr-1 9

（图片来自嘉宾分享）

他们要做的 VR 位置跟踪技术，跟从前的技术要求不一样。

“Oculus Rift 第一代 DK 出来的时候还没有头部位置跟踪，也没有提出位置跟踪的概念，只有一个计算机系统的输出端，但是完整的计算机系统是需要输入和输出两个的，输入当时没人做。所以我们决定做输入的环节，这样才能让 VR 变成一个完整的计算机系统。”

但是 VR 交互技术，在 2014 年的时候仍然是个又贵又冷门的玩意儿。

当时消费级的三维输入只有 Leap Motion，其捕捉范围太小，只能跟踪手的运动。

ifanr-1 10

（图片来自嘉宾分享）

其实 VR 里最重要的位置是头部，假设在 VR 场景里，你要拿较远的一瓶水，当你移动身体的时候，瓶子要离你越来越近，而不是跟着你的头一起动。所以位置跟踪尤为重要，它是 VR 系统实现的重要条件。

所以在 2014 年的时候，Depth VR 就开始正式做 VR 的位置跟踪系统。

要做优秀的 VR 位置跟踪系统，需要满足几个条件

第一要范围够大，才在 VR 场景里到处跑，然而这对位置跟踪技术有着很高的要求，捕捉范围要足够大，至少要有 4×4 米的空间范围才能实现场景运动和正常移动。

第二，精度的要求要高。除了空间位置要有较高的准确性，最重要的是减少位置跟踪系统的抖动幅度，所谓抖动，正是源自系统里的噪音，例如图像的噪音。而光学追踪能避免系统噪音带来的影响。

“我为什么要说精度和范围的问题呢？因为这两个东西加起来就构成了位置跟踪系统的体验。体验这个东西是很微妙的，它是由人来定位的。人又没有一个标准，人的标准永远是既苛刻，又很模糊，说不清的一个东西。”

除了精度和范围，实现 VR 交互系统，还需要关注最后一点——延迟。延迟是指用户真正的运动和他看到画面运动时的时差，这又决定了 VR 的体验。

当初除了以上的硬性指标， VR 位置跟踪系统的产品还要足够便宜。在李今看来，鼠标跟 VR 位置跟踪系统类似，是同一个级别的输入设备，差别在于，鼠标相比于三维的位置跟踪系统而言，它输入的是二维的一个坐标。

“我们可以通过鼠标的定价，来窥探大众对运算平台的成本期待。所以我们得出结论，如果整个位置跟踪系统做到了鼠标这么便宜，才有资格成为一个消费级的产品。”

为寻实现方案，把人类史上的位置跟踪方案看个遍

2014 年，在明确了这个位置跟踪系统对性能还有成本的要求之后，Depth-VR 开始寻找 VR 位置跟踪系统最适用的方案，他们按照声光电磁惯性的顺序，把整个人类历史上用过这些位置跟踪方案都看了一遍。

第一个研究的是超声波定位技术，因存在延迟和回声反射的问题，以及追踪目标数量太少、部署起来太麻烦等一系列缺憾，并不适合用作 VR 设备。

而电磁定位技术则需要理想的磁场环境，磁场容易被干扰，容易衰减或被去掉，因此用这种技术得到的坐标是一个不正确的坐标，所以也不作考虑。

最后一类是惯性动捕，这类叫 VMI 的产品，通过一套关节附近装了 IMU 传感器的衣服，测量人的每一根主要骨头的姿态，然后用钢体模拟出一个木偶，去分析这个人的整个身体和每个关节的动作，假想这个人在地面走，和地面之间是完全没有滑动摩擦的。

ifanr-1 20

（图片来自嘉宾分享）

“我们看完声光电这三种方案之后，觉得不是特别靠谱，没有一个最优方法。最后没有办法，我们又回到了光学位置跟踪方法上。在现在和未来，这个行业的所有位置跟踪技术，基本上都会归纳到光学位置跟踪里。”

Depth-VR 开始考虑做一个叫 SLAM 的方案，利用了一套存在很久的算法和理论，通过摄像头的运动去分析环境，再进行算法反推自己的位置。Depth-VR 打算利用 iPhone 的处理器。

“有一个开源的算法我们直接移植到了 iPhone 上，在 iPhone 的摄像头上罩了一个广角的鱼眼镜头，摄像机通过鱼眼镜头拍到的图像视角比较广，就能看到将近 180 度的图像，让它的算法在 iPhone CPU 上跑。”

然而 iPhone 的 CPU 不给力，出现了跑完 SLAM 定位的 Demo 后无法正常游戏的情况。手机的运算能力有限，必须用专门的芯片，但开发成本过高，Depth-VR 无法承受。

ifanr-1 25

（图片来自嘉宾分享）

Depth-VR 也有考虑过其它 VR 的巨头公司在使用的方案，比如 Optitrack ，一个由美国的光学动捕领域的龙头企业研发生产的产品。但 Depth-VR 在研究时发现，这些摄像机非常昂贵，VR 位置跟踪环境一套下来要几十万人民币。出于对成本的考虑，Depth-VR 抛弃了很多方案，其中包括深度相机。

“大家都知道鼠标才几十块钱，你要是专门只完成一个定位的任务的话，这个设备的成本也不应超过两百块钱吧，成本是非常敏感的。尤其是现在 VR 或 AR 的内容还没有起来的时候，设备必须走低价的路线，不然的话，你卖一个高价格缺少内容的一个设备，几乎不会有人买这种东西。”

参考各大厂家的定位方案，仍难寻最优方案

为了找到最优的实现方案，Depth-VR 不是没有尝试过向其它 VR 巨头学习的。

索尼 PlayStation 的 3 代和 4 代的方案，是基于计算机视觉和光学动捕。Depth-VR 研究了他们的方案后，发现其运算量太大，要依赖主机。

“这个方案我们当时也抛弃了。因为我们对空间位置跟踪设备的定义，是一个单独的传感器，不应依赖任何的外部运算资源，我们想做的是一个脱离外部运算资源的独立传感器。”

和索尼一样，Oculus 头盔的定位系统也依赖 PC 去做位置跟踪，于是Depth-VR 研究一番后又放弃了。

ifanr-1 27

（图片来自嘉宾分享）

后来，他们看到唯一不依赖 PC 运算能力方案的 HTC VIVE，精确度能达到零点几度。但因为它采用激光还有其他的一些配件，外部整体的成本也比较高。它的成本不能满足 Depth-VR 的要求，同时还存在激光会互相干扰，导致同一个空间不能扩展多个外部定位系统的问题。到最后，他们连 HTC VIVE 的方案都抛弃掉。