在 AI 技术还不够成熟可靠的时代，我们究竟想要一款什么样的智能音箱？

10 年前电影《钢铁侠》上映，影片中那个能帮助主人翁 TonyStark 处理各种事物、计算各种信息的智能管家 Jarvis，凭借着流畅无障的人机对话、近乎无所不能的技能、具备人格和独立思维等理想的设定，成为了不少人对 AI 助手的完美假想对象。

是的，在科幻作品从来都不缺乏想象力，回忆起早期标榜科幻的动漫作品《人型电脑天使心》，同样也为我们描绘了一个更加理想化的 AI 世界：AI 变成人型具象的产品形态，来服务人类。

当然，以上只是科幻作品对于 AI 所进行的畅想，距离现实生活仍有非常大的差距，不过一部分在过去曾被认为是科幻情节的功能，例如语音助手，其实已经在智能手机、智能音箱等产品上露面了。

尽管它们不能做到像 Jarvis 那样将自主意识转移到云端，从而变得无处不在；也不能做到像人型电脑那般拟人仿真，但作为一个搭载智能语音助手的产品，它们基本也能完成用户在日常生活中指派的多数命令。

（图自：TechHive）

相比起智能手机，在销量上还不足以被称得上是「爆款」的智能音箱，近年来反而变成了被越来越多企业寄予厚望的 AI「新容器」，在现今的智能音箱领域里，不仅有硅谷科技巨头的风向指引，还有一部分国内创业团队全力押注。

尽管智能音箱的存在感正在逐渐变得越来越明显，但有不少用户反馈，现阶段的智能音箱仍然无法勾起他们的购买欲望。

不过，这问题到底出在哪里？

这可能是「落差感」的锅

前面之所以提到科幻作品中 AI 的情节与现实中 AI 情况的对比，其实我想顺延下来表达一个点—落差感。实际上，大多数用户在买智能音箱之前和买智能音箱之后，往往都会形成这样一个非常明显的反差：

买之前：这些功能看上去好方便、好好用！

买之后：用起来好像也就那样…

如果将智能音箱带来的这个落差感从使用体验的角度再进一步分析并拆分，我们基本上可以总结出造就这种反差感受的几个细分点。

功能并非刚需

现在的智能音箱在功能上基本都大同小异，它们大多都是以播放音频内容作为核心，并在语音交互的基础上，拓展了聊天、控制智能家居、查询天气、讲笑话、查交通、定闹钟等方面的功能。

XX，帮我设一个 7 点的闹钟。

XX，播放一首周杰伦的歌。

XX，今天需要带雨伞吗？

…

实际上，对于用户来说，这些功能并非刚需，况且一部分智能手机已经兼具了语音助手，透过这些智能手机，你也能获得相似的功能和体验。

（图自：Tata CLiQ）

不懂人意，答非所问

与宣传视频中描绘的美好景象不同，在实际体验中，语音识别率和句意理解仍然是阻碍用户获得良好使用体验方面的障碍之一。

首先是语音识别率，我想很多用户在多次唤醒智能音箱未遂，或音箱多次无法准确识别出指令后，应该会对智能音箱的兴趣减掉了一大半。

其次是句意理解的问题，在某些时候，大多数智能音箱其实是不能听懂你的意思的。一旦提问句式变得复杂、句子结构与智能音箱预设不符，那么它很容易将你的指令变成搜歌或搜索网页的关键词。

不具备「流畅」的对话能力

也正因为它不懂人意、答非所问，并且它响应速度慢、每次接受指令前，都需要唤醒词唤醒。因而这些问题所带来的中断感和不便，就让你很难与智能音箱展开一次流畅的对话。

而且，目前还有蛮多的智能音箱并不支持聊天内容上下文关联，简单来说，就是智能音箱已经记不住你上几句话说了什么。

AI 仍需要用户帮忙培育

实际上，现在的智能音箱产品还不能做到真正的「智能」。它需要继续积累用户的数据，并通过分析用户的使用情况，逐步完善其智能性，这样它才能在你需要的时候，变得相对更懂你。

从这一过程到真正成熟，可能需要相对漫长的时间，而这对于购买了产品的用户来说，可能不是一件能接受的事情。因为这样便会在他们的主观印象中，留下一个智能音箱技术不成熟、不实用的烙印。

用户希望从智能音箱中获得什么呢？

外媒 Forbes 曾在《解释人工智能重要性的关键定义》一文中提到，人工智能的定义已经逐渐从传统字面上的理解转变为 3 种试图实现的形态：

构建与人类思维方式相近的系统（强 AI）
只会执行而不懂人类思维方式的系统（弱 AI）
基于人类思维方式作为模板，但最终不断进化和发展的系统

如果从上述的概念看，现阶段的智能音箱应该是属于第二种弱 AI 的范畴内，它们不具备独立的思维，无法揣测用户的想法，并且只会执行预设的指令。

对于这种程度的 AI 智能音箱，其实指望它能像 Jarvis、人型电脑那样知你懂你，是不现实的。不过，回归到实际需求上来看，用户希望从智能音箱中获得什么呢？如果将上面列出的这些问题归纳总结起来，大致能得出两个方面的需求，一个是要足够智能，另一个是技能和服务要多。

要足够智能

这里又可以拆分为两部分：一个是智能音箱要「知你懂你」，另一个是尽可能地想你所想。

「知你懂你」这里所说的含义，是指音箱能够知道你说的指令，并懂你想表达的意思。简单来说，就是语音识别准确率和句意理解能力。

之前在我体验渡鸦 Raven H 智能音箱的时候，它的语音识别准确率就让我满意：即便是用 80% 的音量播放音乐、离 Raven H 相距 3 米左右的距离时，它都能响应到，并准确识别出语音指令。

而说到句意理解能力这一块，目前大多数智能音箱仍然限制在预设句式的条条框框之中。

但实际上「知你懂你」这个问题，已经随着专用语音芯片的逐步成熟以及语音交互生态的支持，能够从根本改善这个方面的体验。

至于想你所想，其实就是通过了解用户的使用习惯来，来提前预知用户的需求。现在大多数智能音箱还不具备这样的能力，那么有没有解决的方法？渡鸦使用了一种「非智能」的方式来解决这个问题。

在 Raven H 上，渡鸦提供了一个 Flow 的功能，通过用户手动预先设置后， Raven H 会在每天闹钟提醒后，自动播报当天的天气、路况、限行以及你的日程安排。

尽管这离真正的想你所想还有蛮大的差距，但起码在 AI 技术还不够成熟的时候，这也算是一种折中的方案。

技能和服务要尽可能多

在使用各种不同的智能音箱后，它们留给我印象最深的并不是那些像播放音乐、查天气、讲笑话等基础功能，而是它们的技能与服务所带来的延伸功能。

例如，我就记住了天猫精灵 X1 可以点外卖、充话费；小米 AI 音箱和渡鸦 Raven H 能够查找手机…

尽管这当中某些技能和服务，未必是每个用户最需要、最实用的功能，但在基础功能体验拉不开较大差距的智能音箱领域，这些小技能和服务，反而是一款智能音箱相较于其他竞品独有的小优势。

实际上，作为参照对象的亚马逊 Echo 智能音箱，它在刚开始面世的时候音质一般智能不足，但是随着亚马逊不断让其学习更多的技能，于是它终成标杆。

其中 Echo 利用技能和服务所做到了的一个优势，便是将功能延伸到更多的智能家居设备上，并与它们建立起联动性。

而在联动智能家居这方面，爱范儿（ID：ifanr）此前体验苹果的样板房时，就已经感受到这方面的便利性。当时，苹果还未推出智能音箱 HomePod，覆盖了不少 HomeKit 设备的样板房仍以 Apple TV 或 iPad 作为智能家居的中枢。

但使用 Apple TV 控制又有些繁琐，iPad 又因随身携带的几率高而容易失去对智能家居中枢的远程控制。这个时候，音箱就是这个场景下最佳的解决方案。

毕竟，用户面对的都是一些逻辑简单的操作，如控制设备开关和调整温度。这些通过语音就能够操控，中间也不需要屏幕的参与。在这个状态下，用户只需要一个可联网、带智能助手的音箱就能够解决问题。

因此，尽可能多地扩展智能音箱的技能和服务，也是智能音箱一个关键的点。

总的来说，作为一种基于弱 AI 形态的产品，智能音箱的本质其实还只是生活中的一种「辅助」工具，但这也不是说，它就没有成为生活必需品的潜质。随着 AI 技术的不断发展，硬件芯片的功能逐渐完善、语音识别等核心技术取得突破以及智能家居的普及，可以预见的是，像智能音箱这样的产品将会慢慢变得成熟、可靠，并且更好地为我们的生活服务。

指不准，未来的智能音箱形态就真的会变成一个无处不在的 Jarvis，或是一位人型电脑呢？

题图自：SailorBomber – DeviantArt