• 媒体品牌
    爱范儿
    关注明日产品的数字潮牌
    APPSO
    先进工具,先知先行,AIGC 的灵感指南
    董车会
    造车新时代,明日出行家
    玩物志
    探索城市新生活方式,做你的明日生活指南
  • 知晓云
  • 制糖工厂
    扫描小程序码,了解更多

Google 开发了一款语音转文字的手机 app,你可能用不上,但对这些人很重要

产品

2019-04-24 12:47

在 Google 研究中心,你或许会看到这样一个场景:

一群人围坐在一起交流,其中一个人总在别人发言时盯着自己的手机屏幕。随着对方的发言,他的手机屏幕上出现了一大段字幕,而这些文字信息正是发言者正在说话的内容。

这其实是 Google 一名有听力障碍的员工正在借助一款手机 app 和同事交流工作的真实场景。

而帮助他「看」懂对方说话内容的手机 app 是今年 2 月 Google 在 Android 手机上推出的 Live Transcribe 应用程序。

据了解,目前耳聋及听力障碍人群在正式的会议或商务活动中主要依赖人工转录服务来获取现场的语音信息,而这类服务普遍价格高昂,且需要字幕员远程参与,所以很难在日常场景中得到应用。

Live Transcribe 是 Google 针对耳聋及听力障碍人群开发的一款免费 Android 无障碍服务,基于此前在自动语音识别技术(ASR)的研究,Live Transcribe 将自动生成字幕的功能引入了手机设备,只需一部手机,便可实现实时的语音转文字功能。

▲ Google AI Research Group 产品经理 Sagar Savla 远程讲解 Live Transcribe 的工作原理

据 Google AI Research Group 产品经理 Sagar Savla 介绍,Live Transcribe 的实时转录功能同时依靠手机设备及云端的神经网络来支持运作:

  • 手机设备上的神经网络主要做声音分类的工作,例如婴儿的哭声或玻璃破碎的声音。
  • 而云端的神经网络则通过三种模型来帮助完成语音转录成文字的工作——首先通过声学模型,可以辨别单词中的不同音节;然后在发音模型下,将辨别出来的不同音节组成实际的单词;最后依靠语音模型,根据识别出来的单词增加适当的标点符号停顿。

Sagar Savla 表示,之所以选择在 Android 手机上开发这项无障碍服务,一方面是考虑到手机设备相比笔记本、平板电脑、小型投影仪等更日常便携,同时相比可穿戴设备又有更广泛的使用人群;另一方面,目前全球使用 Android 手机的用户有 20 亿人,由于 Live Transcribe 的大部分转录工作都在云端完成,所以这项服务对手机设备的配置并无特别要求,只要有网,便可在大部分 Android 手机上进行运行。

Sagar Savla 还表示,Live Transcribe 目前支持 70 多种语言和方言的实时转录,即便是在网络并不发达的第三世界国家,转录延时也不会超过 200 毫秒。

据悉, Live Transcribe 已在 Google Pixel 3 手机中预装了此功能的最新版本,各国的 Google Play 商店也在分阶段上架(国内用户暂时无法下载使用)。

除了提供实时的语音转录服务,Live Transcribe 还与加拉德特大学(一所全部课程与服务都是为聋人或弱听学生而设的大学)共同发起了用户体验研究,优化了产品其他方面的交互设计:

比如以前转录屏幕上普遍会用不同颜色来提醒用户信息的准确度,黄色代表较高的准确度,而蓝色则表示准确度较低。Live Transcribe 则取消了这个显示,原因是通过他们的研究发现,用颜色显示准确度不仅会分散用户的注意力,且极易造成阅读误导,比如会让用户误将两个相同颜色的单词认为是一个词组。

▲ 用不同颜色显示信息的准确度。

另外,Live Transcribe 团队认为仅仅依靠转录功能可能存在一些隐患,比如嘈杂环境由于语音接收状况不佳导致信息传达错误,所以他们也在研究是否可以借助语音以外的其他听觉信号来改善用户体验。比如增加环境噪音的显示,Sagar Savla 表示,这个功能不仅可以帮助用户了解当前环境所处的噪声级别,还可以引导用户根据麦克风的接收状况调整手机位置。

▲ 较亮的内部同心圆代表噪声层,外部同心圆表示手机麦克风对说话人声音的接收状况。

虽然爱范儿的大部分读者可能并非 Live Transcribe 这类无障碍服务的核心用户,但据世界卫生组织(WTO)估计,全球有 4.66 亿耳聋及听障人士,到 2055 年将上升至 9 亿人,而这个数字已远超目前世界人口第三大国美国的总人口数(截止 2019.1 约为 3.3 亿人)。

但目前我们使用的大部分科技产品并未将信息无障碍纳入产品研发流程,正如《IT 公论的》李如一此前说过,产品经理往往把信息无障碍视为产品中的一个「功能」。但凡功能总有优先级,换言之,功能未必是非有不可的。而如果你把信息无障碍视为用户体验的有机组成部分,就必须从定义用户、构思产品的初期将它纳入设计流程。

实际上,无论生理功能是否完整,任何人都享有使用一个软硬件产品全部功能的权利。那些标榜「用科技改变生活」的科技公司们,也应该把推动信息无障碍作为一种责任,而非公益行为。

我们可以看到,除 Google 外,苹果、微软等科技巨头也正在践行和推广这样的理念。不仅自己研发设计无障碍、包容性的产品,还将信息无障碍指南与文档开放给第三方开发者参考( Web 设计规范iOS 程序设计规范以及 Android 设计规范 )。

而在很多欧美国家,信息无障碍属于强制要求,如果因为没有辅助功能而被起诉,很有可能面临高额的赔偿或者严厉的处罚。

去年,我国工信部批准发布了《移动通信终端无障碍技术要求》,越来越的国产手机厂商和第三方 app 也开始重视信息无障碍(推荐阅读:7 大品牌手机 + 31 款 App 无障碍横评)。

我们始终倡导,信息无障碍不是一种恩惠,而是属于每个人的权利。希望这个理念能深入每一家科技公司。

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中