无障碍的新定义，一种确保用户意图被理解的交互

如何让听障人群接听电话，如何让语言障碍人群与外界对话？在脑机接口技术并不成熟的现阶段，要想完成这种不可能之事，就要指望人工智能和机器学习了。

▲ Live Transcribe

今年 2 月，Google 在 Android 手机上推出的 Live Transcribe 应用程序，再到 5 月的 Google I/O，发布了能够实时转录语音 / 文字支持通话的 Live Relay，以及能够为语言障碍者实现语音转写的 Project Euphonia 项目。

在「帮助人们更好地沟通」这件事情上，这些应该是人工智能目前最前沿，并且能广泛应用的进展了。

Live Transcribe

Live Transcribe 是 Google 针对耳聋及听力障碍人群开发的一款免费 Android 无障碍服务。基于此前在自动语音识别技术（ASR）的研究，Live Transcribe 将自动生成字幕的功能引入了手机设备。

▲ 较亮的内部同心圆代表噪声层，外部同心圆表示手机麦克风对说话人声音的接收状况。

使用 Live Transcribe 的场景是这样的：打开 Live Transcribe 这个软件后，它会实时读取外界的语音，并实时讲语音转录成为文字，在手机屏幕上显示出来。即使是说话者大笑、吹口哨等细节，也会有相应的文字提示。

也就是说只需一部联网的手机，便可实现实时的语音转文字功能。目前该软件已经支持超过 70 种语言。

但 Live Transcribe 的实时转录，不仅需要手机设备上的神经网络做声音分类，还需要依赖云端的三个神经网络模型，去完成语音转录成为文字的过程。

▲ Sagar Savla 在展示 Live Transcribe

在爱范儿向 Google AI Research Group 产品经理 Sagar Savla 问及，何时 Live Transcribe 才能实现完全在本地运行、不依赖云端网络时，他告诉我们：

我们正在做这样的工作，但目前没有准确的时间表。比如像中文这个语种，需要很大的模型，要想把很大的模型融入到终端设备并且保证其准确性，是很有挑战的。

Live Relay

Google 在今年的开发者大会上展示了 Live Relay 的能力：如何在听不到或者没法开口说话的情况下，轻松地打电话。

如果你因为语言障碍、社恐、拔牙等各种情况没法开口说话，在 Live Relay 的页面输入单词，这个文本会被迅速转换为音频，发到另一个人的手机上。

如果你因为听力障碍、身处噪音等情况没法听到声音， Live Relay 也可以把通话对方的语音转录成为文本。

目前 Live Relay 依然处于研究阶段，只能在特定的 Pixel 手机上使用，并且暂时只支持英文。

Live Relay 将完全在设备上运营，通过使用设备上的语音识别和文本到语音识别功能。

借助即时响应和预测性输入建议（smart relay 和 smart compose），打字速度提高后是可以与电话呼叫保持同步的。

在我看来，虽然 Live Relay 被归类到 Google 的无障碍项目，尤其为听障用户提供帮助，但其实很多人也可能用得上。比如在开会时突然接到重要电话，没法跑出去接听，那么 Live Relay 就能派上用场了。

Project Euphonia

据统计，渐冻症、多发性硬化症、脑外伤、中风等神经系统疾病的患者，通常也会出现语言障碍，外界通常没法理解这类人群说的话，以及表达方式。

Euphonia 项目在为语言障碍人群建立语音识别模型，以及能够识别手势、眨眼、面部表情等基于计算机视觉的模型，帮助他们更好地与外界沟通表达。

他们通过与渐冻症组织合作，训练 AI 去学习和识别渐冻症患者的声音，从而实现对他们发音的转录。

与此同时，他们还在正对特定的患者，训练个性化的 AI。

比如被诊断患渐冻症十多年的 Steve Saling，受特殊训练的模型可以识别出他看体育赛事时的脸部表情，从而确定他想要对外表达的情绪。

在他想喝彩时，电脑会发出吹喇叭（airhorn）的声音；喝倒彩时，则发出嘘声（boo）。

Euphonia 项目的产品经理 Julie Cattiau 表示，他们所面临最大的困难是收集语音样本。因为有语言障碍的人在人群中占比不高，并且经常是有特定需求的，所以他们依然在招募寻找适合做这种语言识别研究的人。

尚有余力的科技公司，在产品设计、开发的时候都会或多或少地考虑信息无障碍（Accessibility）。

某种程度而言，信息无障碍是智能产品交互设计中针对特殊人群的一个功能，它可以让人们更加平等地享用产品在硬件和软件上的各项功能。

科技产品中的「无障碍」，相当于互联网世界中的盲道、扶手、助听器、义肢。

无论是 Android、iOS 系统中的无障碍功能菜单、读屏功能、放大镜功能、反差颜色设置，还是一些 app 接入了无障碍套件、为功能按钮添加「标签」，这些都是很基础的无障碍用户体验。

基础的无障碍用户体验，是为了让用户能够更准确接收到手机、电脑、app 等产品所发出的信息。

而 Google 借助人工智能和机器学习，让无障碍从「用户准确接收机器信息」，向「确保用户意图被机器理解」进化迭代。

这也意味着，「无障碍」在未来将是一种新的人机交互方式。它可以为特定人群展示提供更多的信息，也在让用户更便捷迅速地操作，更重要的是向「让我来帮助你完成」演化。

技术的发展在重新定义「无障碍」，也对产品、科技公司提出了新的要求。一个能将无障碍体验做好的产品，通常也能为普通用户提供更好的体验。