用两年时间,憋一个大招,格灵深瞳挑战最难的计算机视觉难题 | iSeed
如果要让机器人和人一样,首先得让它感受到人所能感受到的世界。从 Wii 开始,到 Kinect 再到 Project Tango 以及 Hololens,我们看到计算机视觉领域的飞速发展,开始让机器拥有自己的眼睛。因此本次 iSeed 访谈系列主题为“为计算机安上眼睛”,我们采访了数家相关团队,将陆续发布。
“全世界 50% 的监控数据是视频监控数据。世界上每卖出两块硬盘,其中有一块就用于视频监控。”前 Google Glass 核心研究员赵勇,现格灵深瞳创始人在一次公开演讲时说。
格灵深瞳,在计算机视觉领域也是一个倍受瞩目的初创公司。去年它成功吸引红杉资本,完成 A 轮数千万美元的融资。
回到文章开头,视频、图像是巨大、但在沉睡着的宝贵数据。过去我们找不到如何利用这些数据的方式,但现在不同了,随着“深度学习”的发展,“卷积神经网络”的提出、大规模运用,人们逐步找到计算机解读这些数据的。这正是格灵深瞳正在做的事情。
赵勇对爱范儿说,“格灵深瞳现在正在做三款产品,第一个产品是一种基于三维视觉系统的安防监控设备,它可以理解视野范围内人的行动,主要客户是银行;第二个产品是我们下个月即将发布,用于可识别汽车的视觉系统;第三个是一个我们工作快一年的汽车视觉产品,目前暂时不方便透露更多信息。”
关于格灵深瞳下一个月发布的视觉识别产品,它可以识别行驶中的车辆,知道汽车的速度以及位置,而且还可以识别车牌号,车型,以及生产年份。要做到这样并不简单,毕竟路况复杂, 光照条件不同,同一款式的汽车还会喷涂不同的颜色,不同颜色在不同光照条件下又有不同的表现,复杂的外界条件会增加视觉识别的难度。
格灵深瞳的产品,其实是“基于三维深度视觉信号处理技术的视觉传感器网络”。
在知乎上,赵勇回答了这个“网络”是怎么一回事。“我们的产品是以网络形式出现的。在我们的网络中,每一个传感器不仅仅可以识别自己视野里的目标,还可以和网络中联通的其他传感器一起协同工作,在网络规模下发挥更大的作用。”——这个网络的提出,一个目的是希望解决人与人之间的重叠遮挡问题。
从动作分析的角度来看,赵勇把这个问题分为粗粒度与细粒度两个层次。
“粗粒度的问题是,通过视觉分析人体的整体移动。但是在现实环境里,这个问题会变得很复杂,比如说地铁里有人会背着包、有人会抱个孩子之类,我们要在这样的情况下来分析一个人的整体移动情况。细粒度的问题是,具体则是一个人的手、腿会有怎样的动作。在这方面各大公司做了很多工作,但是它们的产品是在客厅使用,也就是在一个可控的环境下,不存在遮挡的问题。”
“我们现在遇到最困难的问题,依然是严重的遮挡。当遮挡发生时,识别就变得困难。在理想的环境下,我们可以用一部 PC 来对场景进行分析,但在安防领域,这就不一样了,我们必须把这样一个高性能高功耗的东西塞进摄像头里。所以我们需要针对嵌入式进行研发。现在研发已经有一定的成果了,不过大家还需要等一段时间才能看到。”
除此之外,软硬结合的产品复杂度也超出团队的预计,赵勇坦诚地承认,“我们低估了这种产品在品质上控制的难度,所以这件事情花了我们更长的时间。对于未来,我们觉得更大的挑战是在商业上,如何在商务上发挥更大的价值。”
在格灵深瞳刚成立的时候,赵勇为了和新成员介绍计算机视觉有什么用途,准备了一个星期的专题,列出了 70、80 个行业,将计算机视觉与不同行业结合的方式列举出来。计算机视觉是一门技术,它可以用于很多个方面。
不过,目前计算机视觉的技术发展还不足以民用化。因此,就好像现在的智能手机祖师其实是无线电对讲机一样,是需要经历一段时间的发展,技术打磨成熟,以及成本降低之后,计算机视觉才可以大规模商用。
赵勇认为,“视觉”在输入端方面占据重要的地位,比如激光雷达、红外线、X 光、超声波雷达等等,这些都是视觉性信号,占据着无可替代的地位。
基于他的行业经验,赵勇认为计算机视觉的突破点关键在于三点,这三点又相辅相成:
- 三维深度视觉;
- 深度学习;
- 小型化高性能运算。
抬头往天的时候,也要看看脚下的路。“今年对格灵深瞳会是关键的一年”,赵勇说:“通过两年在技术上的研发,以及对市场的琢磨,我们今年最重要的任务是产品化,找到自己的模式。”
PS:下一期 iSeed 系列访谈主题是:在虚拟世界中现实着,主要报道“虚拟现实”方向。如果你想参与到 iSeed 系列报道,或者有相关项目推荐,请发邮件到 [email protected],请注意在邮件标题写上“iSeed 报道推荐”。
初创团队的产品如若想获得 iSeed 系列的采访,请将产品提交到创库(MindStore.io)。