潜修 2 年，突破 3 个难题，图漾科技的深度摄像头不一样 | iSeed

如果要让机器人和人一样，首先得让它感受到人所能感受到的世界。从 Wii 开始，到 Kinect 再到 Project Tango 以及 Hololens，我们看到计算机视觉领域的飞速发展，开始让机器拥有自己的眼睛。因此本次 iSeed 访谈系列主题为“为计算机安上眼睛”，我们采访了数家相关团队，将陆续发布。

对机器人的记忆，得追溯到第一次看《机械战警 I》（又称“铁甲威龙”）的时候，电影展示了机器战警眼里的世界，它将目标从水泥钢筋的背景中分离出来，然后抬手飞快地射几枪，对方中弹从高处摔下。

之后明白，其实《机械战警 I》所演示的画面绝对不是真实的。如果要让机器人真的能知道身边的环境，识别物体，就得赋予它们人类、自然界生物通过进化所获得的立体视觉。——如果是机器人，则需要深度摄像头来帮助自己获取这些信息。

在国内，2013 年成立的的图漾科技紧跟巨头们的脚步，一头扎入“深度摄像头”领域，目前今年刚拿了天使轮，团队 10 人，产品已有样机正准备量产，有 6 家正式合作伙伴。

然而，在巨头厮杀的战场，图漾科技要如何保证自己的产品、技术的差异化？图漾科技的创始人费浙平解释深度摄像头的关键技术规格，首先是检测范围，看最大检测距离；第二看检测精度，也就是误差多少；第三看检测角度，看镜头的视角多大；第四看检测速度，每秒能检测多少次。

“我们的产品采用双摄像头加结构光检测，最大检测范围可达 10 米，一般客厅中的深度识别范围是 4 – 5 米的样子，所以我们的检测范围较大，可以满足更多客户的需求。我们的优势是提供了一个拓展性较高的深度摄像头的平台，近距离、远距离，高精度、低精度等不同条件下的深度识别都能胜任。”

Kinect 2 拆解

实际上，深度识别有分室外场景，室内场景以及近场、远场之分。之前有企业展出自己的深度摄像头产品，在一个设备上拥有前置后置 2 个摄像头，前置摄像头检测范围为 0 米 – 1.2 米，后置摄像头为 3 – 4 米（室内）。——图漾科技所推出的深度摄像头，检测范围具备一定的优势。

相比“单摄像头 +结构光”，图漾科技所采用的“双摄像头 + 结构光”作为深度检测的方式，抗环境干扰能力强，工作可靠性更强，可以满足 7×24 长时间工作的要求，不过因为多一个摄像头，所以它的结构要复杂一些，而且功耗要高一点。

实际上，为了能够深度摄像头的检测范围，图漾科技专门为自己的产品定制光学结构件，电路经过重新设计，还专注于算法的研发。费浙平称，“我们的算法基础实现结构，光学系统结构方面，没有抄国外任何技术。”

从公司成立到技术研发成熟，图漾科技走过了 3 个阶段：

2012 年 4 月，图漾科技攻克并掌握基于散班识别的三维景深技术；
2012 年 12 月，开发出高速率手指动作捕捉技术原型；
2013 年 9 月，推出首款深度摄像头设备，有独立视觉处理芯片，可直接输出物体位置。

这些技术上的难题，是由图漾科技团队在 3 年时间里逐一攻克。费浙平说，“实际上，尽管大公司看起来人很多，但专门负责某个技术攻关的小组，可能不过是十人二十人。所以，我们并不是跟几千人竞争，而是跟十几人竞争。”

费浙平强调，虽然大公司都在押注深度摄像头，但背后是为他们自己的产品、平台服务，而图漾科技是一个第三方的技术提供方，立场是中立的。

图漾科技创始人费浙平

费浙平在 ARM 工作了 8 年，是这家公司在大陆的第一名员工。工作 8 年之后，他去了 MIPS 公司（现已被 Imagination 收购）工作。这段时间，费浙平从工程师，转变为技术市场，最后做过一段时间销售。

这段经历给他宝贵的财富。“在做技术市场的时候，通过给客户培训 ARM 技术人员，接触到各个方面，这段经历带给我的改变非常大，一下子让我看到了技术在各个方面的丰富应用，以及看到产品如何从 0 到 1 甚至到 100 的过程。”

当前耕耘“深度摄像头”的许多团队不同将目光瞄准相关应用层的开发，比如图像渲染、三维建模等等。而图漾科技不同，他们更加希望为他人提供基础性、通用性的基础软件库，帮助其他人开发基于深度识别的应用。

有许多行业对深度摄像头特别感兴趣，安防领域和机器人领域的需求很突出。在安防领域，深度摄像头主要用行为分析，而在某些特定的场景下，这些通过这些动作轨迹进而识别出人背后的意图，可以提前进行预警。而在机器人领域，深度摄像头将主要用于视觉导航，识别外界的环境，规划路径，实现避障工作。

目前，整个行业正在为深度摄像头寻找更加丰富的应用场景，英特尔在近年来的 CES 和 IDF 上都力推 RealSense 并提出更多的案例，印象最深刻的是，它可以运用物流仓储上，实时检测包裹的大小，计算仓库的空间，提供最佳的摆放建议。

Project Tango

近年来，计算机视觉，以及细分下来的“深度摄像头”已经成为各大科技巨头的角逐之地。2013 年，苹果收购了第一代 Kinect 提供者 PrimeSense，2014 年英特尔在 CES 上首度展示 RealSense，Google 去年已经展示 Project Tango 展示了深度摄像头在移动设备上的应用。至于微软，则展示极具科幻感的下一代交互设备 Hololens，单独定制计算单元来处理深度识别的信息。

CogniVue（四天前被飞思卡尔收购）的副总裁 Tom Wilson 曾说，“新一代的视觉应用需要 100 倍以上的嵌入式视觉性能/功耗，为了满足这些应用的性能和功率需求，我们必须在相同功耗下提升较传统处理架构更高 100-400 倍的性能。”
费浙平认为，“现有的处理器架构，是不足以支撑现有的计算机视觉的发展。”就好像 GPU 是将 CPU 中图像处理的部分分离出来一样，未来关于深度识别方面，也将出现专门优化过的处理器来处理相关的内容，才能做到又快又好。——这似乎也意味着，智能手机上集成的传感器会增加多两个：深度摄像头 + 深度图像处理器。

费浙平说，“现在深度摄像头技术发展尚属早期，距离客户的需求还有一段距离，但这也意味着，这是一个可以长久做下去的事情。”

PS：下一期 iSeed 系列访谈主题是：在虚拟世界中现实着，主要报道“虚拟现实”方向。如果你想参与到 iSeed 系列报道，或者有相关项目推荐，请发邮件到 [email protected]，请注意在邮件标题写上“iSeed 报道推荐”。