Google 带来了一种手语识别算法,让你明白别人究竟在比划啥

公司

08-21 08:01

对于绝大部分人来说,通过说话进行交流是一件理所当然的事情。但世界上还存在着另外一小部分群体,他们由于先天或者后天的原因,并不能做到这些我们认为理所当然的事情,对于某些有听觉与语言障碍的人士来说,手语才是他们之间交流的方式。

问题是,手语虽然解决了他们之间交流的方式,但对于习惯了说话的大部分人来说,手语和外星语言可能没有什么本质区别。如何方便地将手语转化成口语,成为近年来一个新的研究课题,而 Google AI 实验室带来的新算法可能成为解决这个问题的新方案。

这个新技术采用了一些巧妙高效的方法,而且随着机器学习的效率越来越高,仅仅使用手机就能够实现高精度的手部与手指追踪,这带来了很多新的可能性。

▲ image description. 图片来自:xxx

「当前最先进的方法都是依赖于性能强大的桌面环境,而我们的方法可以在手机上实现实时追踪,甚至能扩展到多个手部,」Google 的研究人员这样在官方博客中写道。强悍的手部追踪算法是一项具备挑战性的计算机视觉任务,因为手部经常会因为动作造成遮挡,并且缺乏高对比度模式。

不仅如此,手部的动作通常速度很快而且微妙,这不是计算机所擅长的那种实时追踪,即便使用多摄像头和深度感应装置的 SignAll ,追踪每个动作依然是件困难的事情。

在这种情况下,研究人员只能够尽量减少计算机需要筛选的数据量,才能提高其反应速度和追踪精度。

首先,他们放弃了对整个手部大小和位置进行追踪,相反,他们只让系统找到手掌部位,这不仅是手部最独特可靠的部分,而且接近矩形,这意味着系统不用处理大量复杂的图案。

当手掌部分被首先识别时,延伸出的手指部分会被单独识别和分析,一个单独算法会将其分配上 21 个坐标,大致描绘出指关节以及指尖,包括手指部分伸出去了多远,而且系统还可以根据手掌的大小和角度进行猜测。

为了完成手指识别的部分,研究人员必须手动将这 21 个坐标点添加到各种不同姿势和光照条件下的大约 30000 个手掌图片中。就像往常一样,每一个强悍的机器学习系统在开始阶段都需要研究人员辛勤的喂数据。

确定了手的姿势以后就简单了,将这些姿势与目前已知的手语含义进行相关联,从简单的字母、数字一直到具有特定名词含义的手势都会有覆盖。最后,一种反应迅速且准确的手势识别算法诞生了,而且可以在智能手机上运行而不是桌面端。

这种算法的出现还能够改进那些现有的识别系统,不过距离 AI 真正理解手语依然还有很长的一段路要走,因为这是一种使用手势、面部表情和其它一些细节呈现的一种与众不同的丰富交流形式。但现在我们正向着越来越好的方向前进。

最后 Google 的研究人员写道:「我们希望向更广泛的研究和开发社区提供这种手势感知功能,并期望创造性案例的出现,以刺激新应用和新研究途径。」

题图来源:Verywell Health

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中