为什么硅谷巨头不约而同押注语音技术？

译指禅导读：

亚马逊、苹果、谷歌正在以数十亿的资金投入，试图将语音识别转变为人类与互联网沟通的主要方式。

随着智能音箱等语音智能家用设备的普及，硅谷的科技巨头们正在进行着一场激烈的博弈。

而语音识别技术的应用是自乔布斯推出苹果手机以来最大的技术转变……

请看来自《财富周刊》的文章：

亚马逊在短短的四年之前还只是一个在线零售商，和公司在线网络托管的主要供应商，它还销售自己的电子消费产品系列，其中包括 Kindle 电子阅读器，这在当时是一个大胆的尝试。

如今，由于无处不在的亚马逊 Echo 智能音箱及其 Alexa 语音识别引擎，亚马逊激发了自乔布斯推出苹果手机以来个人计算机和通信领域的最大转变。

起初这一切似乎都是很新奇的。亚马逊在 2014 年 11 月首次推出了 Echo 智能音箱，一种使用人工智能接收人类询问的高科技精灵，它可以在互联网数据库中扫描数百万字，并提供各种各样的答案。

目前，亚马逊在总共卖出约 4700 万套 Echo 设备后，Echo 同时服务着 80 个国家的消费者，平均每天处理 1.3 亿个问题。Alexa 是以古埃及图书馆 Alexandria 命名的，它可以接受音乐请求，提供天气预报和体育比分信息，并远程调节用户的恒温器等。 它还可以讲笑话; 回答琐碎问题; 甚至是一些幼稚的小伎俩。（不信可以尝试问问 Alexa 放屁。）

语音识别技术并不是亚马逊发明的，这种技术已经存在了几十年。亚马逊也不是第一个提供主流语音应用的科技巨头。早在 Alexa 之前，苹果公司的 Siri 智能语音助手和 Google Assistant 谷歌语音助手早已经出现。

在亚马逊推出 Alexa 的同时，微软也推出了 Cortana（微软小娜）人工智能助理。但随着 Echo 智能音箱的广泛成功，亚马逊潜移默化地引发了一场「智能」家用设备市场的激烈竞争，这场竞争可以使语音识别产品像个人电脑或智能手机对人类一样发挥非常重要的作用。

就像谷歌的搜索算法彻底改变了信息消费，并颠覆了广告业一样，人工智能驱动的语音计算使得类似转变成为可能。亚马逊 Alexa 首席科学家 Rohit Prasad 说，「我们希望消除与客户的摩擦，最自然的方式就是通过声音。它不仅仅是一个能提供一堆结果的搜索引擎，它还会告诉你答案。」

▲ 亚马逊 Alexa 首席科学家兼副总裁 Rohit Prasad

人工智能与全新语音驱动的用户体验的强大组合，使得这场战争已不仅仅是圣诞节期间抢占最热门玩具的竞争 – 尽管也是如此。谷歌，苹果，Facebook，微软，以及其他公司都在向竞争产品注入资金。

事实上，投资公司 Loup Ventures 的 Gene Munster 估计，科技巨头们将会花费年度研发预算的 10％用于语音识别，总计超过 50 亿美元。他称语音技术的出现是计算机运作的「巨大变化」，并预测语音命令正迅速成为「我们与互联网互动的最常见方式，而不是通过键盘或手机屏幕。」

赌注如此之高，竞争激烈也不足为奇。根据研究公司 Canalys 的数据显示，亚马逊最早进入市场并处于领先，在全球连接音箱市场占据 42％的份额。

谷歌也毫不逊色，与 Echo 外观相似、由谷歌智能助理提供支持的家庭设备系列占有 34％的份额，并且谷歌最近也反超亚马逊。苹果 HomePod 智能音箱因为价格昂贵和最后进入市场而位于第三。

Facebook 在 10 月份也推出了 Portal 音频和视频设备系列，可以完成主要竞争对手的部分语音识别任务，尤其是 Alexa。

目前连接音箱和类似设备的市场规模庞大并且不断增长 – 但对于技术巨头来说，这不一定是最戏剧性增长的机遇。研究公司全球市场洞察 (Global Market Insights) 将 2017 年全球智能音箱销售额定为 45 亿美元，预计到 2024 年这一数字将增长至 300 亿美元。

然而硬件收入并没有计算在内。例如，亚马逊对 Echo 智能音箱的定价标准是盈亏平衡甚至更低的价格。去年假日期间亚马逊推出的简易版智能音箱 Echo Dot 售价为 29 美元，ABI Research 认为这个价格比设备部件的成本还要低。

相反，每个主要参与者都采取了一种策略，即在某种程度上将客户锁定到其他商品和服务上的更大目标。

例如，亚马逊使用 Echo 系列来增加其 Prime 会员订阅服务的价值。谷歌希望语音搜索能够丰富已经相当庞大的数据库，最终为其广告业务提供支持。苹果通过 Siri，将手机、电脑、电视控制器联系在一起，甚至将汽车制造商和车载系统软件捆绑在一起。

正如所有投资和快速发展的革新一样，现在预测谁将获胜还为时过早。但可以肯定地说，该行业已经围绕这样一种观念进行了合作，即依赖于人工智能的语音技术将会是未来的用户界面。

它必将是一个会对普通人生活产生深远影响的技术。负责监管谷歌智能助理产品设计的副总裁 Nick Fox 说，「通过语音可以做各种各样的事情，识字能力较差的人能操作该系统。

正在驾驶的人也能操作该系统。人们在烹饪时通过该系统可以找到菜谱。每隔一段时间，技术就会发生一次构造性的转变，我们认为语音技术就是转变之一。」

尽管如此，语音识别仍处于起步阶段。与研究人员的期望相比，语音技术的应用还处在满足基本需求的阶段，并且有很大的上升空间。

关于科技公司窃听客户信息以及如何合法使用收集的用户数据等问题，担忧依然存在。「用人工智能识别语音，我们已经从双翼飞机时代进入喷气式飞机时代，」华盛顿大学电气工程教授、语言技术世界顶尖科学家之一的 Mari Ostendorf 指出，计算机已经善于回答直截了当的问题，但在实际对话方面仍有欠缺。

「人工智能技术在语音识别单词和理解命令方面，就数量而言已经令人印象深刻。但我们还没有进入火箭时代。」

数十年来，语音识别已成为下一个杀手级应用。在 20 世纪 50 年代，贝尔实验室创建了一个名为 Audrey 的人工智能系统，可以语音识别从 1 到 9 的数字。

在 20 世纪 90 年代，PC 用户安装的 Dragon NaturallySpeaking 语音识别软件，已经可以处理简单的语音识别，不需要说话者在每个单词后停顿。但直到 2010 年苹果公司在苹果手机上发布了 Siri，消费者才意识到与大规模计算能力相关的语音识别引擎能够实现什么。大约在同一时间，亚马逊，在首席执行官 Jeff Bezos 一个真正的星际迷航狂热爱好者的领导下 – 开始梦想复制星舰进取号上的可以与人对话的电脑。

曾发表过 100 多篇人工智能对话文章、亚马逊现任职员工 Prasad 说道「我们设想的未来是，你可以通过语音与任何服务进行互动，」 Alexa 实现了这一点，使消费者与亚马逊沟通变得更为简便。

语音识别技术的进步，伴随着计算能力的进步，即计算能力更快，更便宜，更普遍，因此更主流 – 亚马逊，谷歌，苹果和其他公司可以更轻松地构建一个无缝网络，通过语音将智能家居设备与其他系统连接起来。

例如，苹果 CarPlay 车载用户可以通过 Siri 将最新一集「权力的游戏」在苹果电视上作为「下一个」播放，并且命令 HomePod 智能音箱在用户到家后播放。两年前，谷歌发布了支持语音的 Home 智能家居设备，它将音乐产品，YouTube 与最新的 Pixel 手机和平板电脑联系在一起。换句话说，每个科技巨头都将语音技术视为它们创造更多数字产品的敲门砖。

科技巨头各自获利颇丰，因此能够为研究和营销提供充足的资金，从而实现更多新产品。例如，苹果和谷歌分别拥有两大主流移动操作系统 iOS 和安卓。这意味着 Siri 和谷歌智能助理几乎可以预装在所有的新手机上。相比之下，亚马逊则需要消费者将 Alexa 应用程序安装在手机上，然后才能在他们的苹果或安卓设备上打开。

前华尔街计算机公司分析师、现任 Loup 公司的 Munster 说，「这个额外的步骤使得亚马逊处于明显的劣势。」 相比之下，激活 Siri 和谷歌智能助理只需说出它们的名字。」

也就是说，iOS 和安卓对所有第三方开发者开放，而亚马逊就是第三方开发者其中之一 – 这也意味着所有开发人员都可以在这两个平台上编写 Alexa 程序。 Bezos 在今年早些时候发布的一份财报中表示，「超过 150 个国家 / 地区的数万名开发人员」正在构建 Alexa 应用并将其整合到非亚马逊的设备中。实际上，合作是语音应用的关键。

▲ 谷歌搜索和 GoogleAssistant 副总裁 NickFox

亚马逊将 Alexa 内置于搜诺思 (Sonos) 的「回音壁」、捷波朗 (Jabra) 的耳机以及宝马，福特和丰田汽车中。谷歌加强与音频设备制造商索尼和 Bang＆Olufsen 的合作，并且联合智能系统 August 智能锁和飞利浦 LED 照明系统进行合作。

Apple 允许其 HomePod 智能音箱与 First Alert 安全系统，以及霍尼韦尔 (Honeywell) 智能恒温器配合使用。谷歌的 Fox 说，「这些合作的好处在于，我们可以将语音连接到整个智能家电的生态系统中。我无需打开手机找到应用程序，直接对设备说，’告诉我谁在我的门前’，摄像头的影像就会弹出来。因为统一，所以简单。」

长期以来，人工智能一直是反乌托邦流行文化的主要内容，尤其以「终结者」和「黑客帝国」为代表的电影，其中邪恶且聪明的机器人的崛起对人类构成威胁。值得庆幸的是，这还不是我们的现实。但随着人工智能的进步和计算成本的降低，这样令人印象深刻并且未来感十足的应用已经成为现实。

语音识别程序通过互联网可以连接到数据中心，这些复杂的数学模型是经过公司花费数年时间编制并通过识别不同语音模式而筛选出的大量数据。语音识别程序可以通过分析呼叫中心人员与客户交谈的记录或通过与数字助理的交互，来识别词汇、区域口音、口语和语境。

语音识别系统同样依赖于物理学和计算机科学。语音在空中产生振动，语音引擎将其视为模拟声波，然后转换为数字格式。然后，计算机可以分析该数字数据的含义。人工智能首先通过检测客户选择的「唤醒词」（例如「Alexa」）来确定声音是否指向其系统来增强流程。

然后，他们从之前数百万其他客户那里所积累的模型对接收到的问题做出高度准确的猜测。「语音识别系统首先是识别声音，然后通过上下文进行解读，」谷歌智能助理项目副总裁 Johan Schalkwyk 解释道。

「比如我说，’在…… 天气怎么样，’，人工智能就会知道下一个词会是国家或城市。我们的数据库中有 500 万个英语单词，在没有上下文的情况下识别 500 万单词中的一个单词是非常困难的。但如果人工智能知道你是在问一个城市，然后就变成在 3 万个英语单词中检索的任务，这样准确率更高。」

计算能力使系统有多种学习机会。为了让 Alexa 开启微波炉 – 这是一个真实的例子 – 语音引擎首先需要了解命令，这意味着它要有学习破解各种各样的口音的能力，比如浓重的南方口音，儿童的高音，非母语人士的发音等等，还要能同时过滤背景噪音，比如在收音机上播放的歌词。

然后，语音引擎还必须了解人们可能要求使用微波炉的各种方式：「加热我的食物」，「打开我的微波炉」，「将食物加热两分钟。」Alexa 和其他语音助手将类似命令在数据库中进行匹配，从而「学习」「加热我的食物」是特定用户将来可能会询问的方式。

▲ 语音发展史

语音识别技术能够迅速发展的部分原因是因为它已经非常精通如何将人类命令转化为行动。谷歌的 Schalkwyk 表示，他们公司的语音引擎现在的响应率已达到了 95％，几乎与人类听力准确度相同，而在 2013 年此响应率只有 80％。

最近在该领域取得的最大成就之一，就是过滤掉背景噪音，这对最敏锐的人耳来说也是难题。然而，只有回答像例如「碟中谍什么时候上映？」这种简单问题时，系统才能达到这个水平。而如果向谷歌智能助理或 Alexa 询问意见或尝试进行对话的时候，设备很有可能会给出一个预先编写的滑稽答案或简单地说：「嗯，我不知道答案。」

对于消费者而言，语音驱动设备是非常有用的。它们在与数据中心的计算机连接之后，体积虽小但却是极其高效的数据收集器。

据消费者情报研究合作伙伴称，大约 60％的亚马逊 Echo 和谷歌 Home 用户至少有一个家用设备，如恒温器、安全系统或设备。语音家用设备可以记录用户日常生活的各个方面。无论是通过其他设备，订阅服务还是代表其他商家做广告，亚马逊，谷歌和苹果积累的数据越多，从而可以更好地为消费者提供服务。

商业机会其实很简单。将 Echo 智能音箱连接到恒温器的消费者，可能会接受购买智能照明系统的建议。尽管这可能会让隐私权倡导者听起来令人毛骨悚然，但科技巨头们正站在个人数据的宝库之上，更好地向消费者推销产品。

与他们的总体战略一样，科技巨头采取不同的方式进行数据收集。亚马逊表示，使用 Alexa 收集的数据，可以使软件更智能，从而对客户更有用。

Alexa 做得越好，客户就越能看到其产品和服务的价值，包括 Prime 会员计划。虽然亚马逊正在大力推广广告 – 研究公司 eMarketer 预计该公司将在 2018 年从数字广告中获得 46.1 亿美元 – 一位发言人称亚马逊目前尚未使用 Alexa 数据来销售广告。谷歌公司，考虑到其巨大的广告业务，也没有将语音定位为广告机会。苹果公司之前大肆宣扬的不愿意利用客户数据来获取商业利益，以 HomePods 的问世而终结。

尽管亚马逊早期卖点之一是销售产品，人们并不会要求他们的设备实现辅助购物功能。亚马逊不会公布有多少 Echo 用户使用该设备购物，但最近由 Codex Group 咨询公司对购买书籍用户的调查表明，辅助购物功能仍处于早期阶段。

数据显示只有 8％的人使用 Echo 购买书籍，而 13％的人用它来听有声读物。「人们是习惯性的动物，」 研究公司 Canalys 的技术分析师 Vincent Thielke 说，当你想买一个咖啡杯时，很难对智能音箱描述清楚你的想法。」

亚马逊表示确实没有过度关注将 Echo 作为辅助购物工具，特别是考虑到如何将该设备与其通过 Prime 订阅提供的其他服务联系起来。

尽管如此，亚马逊仍然希望日益优化的计算机技术能够提升其零售业务。亚马逊的自然语言处理科学家 Prasad 说，「如果你想购买双 A 电池，你不需要看到它们，你也不需要记住参数。参考购物历史即可。如果您以前从未购买过电池，我们当然也会推荐亚马逊品牌的电池。」

促进购物远不止替代电池的销售，特别是许多商家希望与科技巨头合作并利用其相关的平台。研究公司 OC＆C Strategy Consultants 预测，到 2022 年，Echo，Google Home 及其同类产品的语音购物销售额将从目前的 20 亿美元增加到 400 亿美元。音箱的重要演变有助于解释这一现象。

亚马逊和谷歌现在都提供带屏幕的智能家居设备，更像是小型电脑和电视机的结合，因此更适合在线购物。亚马逊在 2017 年春季推出了售价 230 美元的 Echo Show 触摸屏智能音箱。

与其他 Echo 设备一样，Echo Show 也预装了 Alexa，但同时用户能够看到图像。这意味着购物者可以看到他们订购的产品以及他们的购物清单、电视节目、音乐歌词、安全摄像头的图像，甚至度假的照片，所有这些都无需按任何按钮或操作电脑鼠标。

就零部件而言，谷歌已经在与四家消费电子制造商合作，其中一些制造商最近开始销售谷歌智能助理的集成智能屏幕。另外，联想智能显示器与的 Facebook Portal 外观类似。

而 Facebook Portal 的零售价为 250 美元，与 JBL Link View 智能显示器的价格相同。LG 计划推出 ThinQ View 触摸屏智能冰箱。谷歌在今年 10 月以 149 美元的价格开始销售配备 7 英寸屏幕的 Home Hub 智能家居控制。

从长远来看，谷歌认为增加屏幕可以让语音购物变得更容易。与亚马逊直接销售产品不同的是，谷歌的购物网站将零售商与谷歌搜索引擎连接在一起。它已经将 Google Home 智能家居设备作为购物工具。

例如，谷歌与星巴克合作，用户只需告诉谷歌智能助理订购「我经常订购的饮品」，订单在用户到达时就已经准备好了。去年，谷歌巩固了与全球最大零售商沃尔玛的合作伙伴关系。购物者只需将他们现有的沃尔玛在线帐户连接到谷歌的购物网站，即可在 Google Home 智能家居设备浏览喜欢的跑鞋是否有货，预定当天提货的平板电视，或者找到最近的沃尔玛商店。

视觉识别技术的加入会使在这些设备上的购物体验更加便捷。视觉识别技术目前已经长期用于在人群中匹配罪犯面孔。今年 9 月，亚马逊宣布正在与 Snapchat 一起测试应用程序，该应用程序可让购物者用 Snapchat 的相机拍摄产品或条形码，然后在屏幕上看到亚马逊网上商店的产品页面。

不难想象，下一步的购物体验将会是使用嵌入在 Echo Show 的相机拍摄用户想要购买产品的照片，然后在屏幕上就可以看到相同或类似的产品信息，价格，评价，是否可以使用 Prime 两天免费送货。

语音技术虽然令人振奋，但这种技术可能会让非技术爱好者花一点时间习惯如何才能与机器对话。科技巨头目前还不是最受信赖的公司，他们需要说服消费者设备不会被恶意窃听。智能音箱只有在检测到「唤醒词」时才会进入聆听模式，例如「Alexa」或「Hey, Google」。今年 5 月，亚马逊将波特兰一位高管与妻子关于硬木地板的对话错误地发给了他的员工。亚马逊为此公开道歉，称设备「误解」了这次谈话。

语音输入产生的错误可能远远超过打字输入产生的错误这可能还会对商业经济造成影响。

去年，达拉斯的一位 6 岁女孩在和 Alexa 谈论饼干和娃娃屋的几天之后，她家收到了 4 磅饼干和 170 美元的娃娃屋。亚马逊表示，Alexa 的家长控制功能如果使用得当的话，可以防止类似事件发的生。

语音技术随着社会的发展会越来越普及。目前已经有超过 1 亿台语音设备成功安装并处于聆听模式，语音成为人与机器进行交流的主导方式只是时间问题 – 即使谈话只是一些杂乱的声音而已。

本文作者 Brian Dumaine，文章在 2018 年 11 月 1 日发表于的「财富」杂志。

本文转自公众号「译指禅」，译指禅专注于翻译国外泛互联网领域的优质长文，精选高质量信息源，想看更多长文，请搜索「译指禅」或「yizhichan007」关注。爱范儿经授权发布，文章为作者观点，不代表爱范儿立场。