电脑的新篇章：无迹可寻又聪慧过人

译者按：通过手机远程遥控家居，苹果系统中的 Siri 语音助手，增强现实和虚拟现实设备更新迭代，智能设备正在一点点进入我们的日常生活。

而人类的终极目标，就是建造出像电影《钢铁侠》中的贾维斯或者《她》中的萨曼莎一样的智能电脑系统，言行举止包括思考完全真人化（顺便一提，《她》里面的电脑配音是声音和人一样性感的斯嘉丽 · 约翰逊），他们没有实体却时刻围绕在用户身边，随时为用户提供可靠的帮助，胜任一切疑难工作。

文章作者 Mark Rolston 原来为设计公司 Frog 工作，后来创立了创意设计公司 ArgoDesign。

作者描绘了这种智能电脑系统的发展现状和未来蓝图，从实际科学的角度分析了操作的可行性，以及过程中可能遇到的挑战和问题。虽然目前的智能系统发展仍处于初级阶段，但至少看了这篇文章，觉得电影中智能电脑主导的世界也不是那么遥不可及了。

如果要去朋友家看电影，吃披萨，喝红酒，用手机来操作一切需要几个步骤？打开订餐软件下单，在 HelloVino(一款免费帮助挑选红酒的软件) 上选一瓶 Chianti 葡萄酒，然后用 Yelp 看看路上哪有红酒商店，一路上用 Waze 规划最通畅的行驶路线。到达之后，你还要点开视频软件挑个电影。

就这么简单的一个小聚之夜，要用上五个不同的软件，五个不同的步骤才能搞定。所以我们的日常生活有多复杂，实在可见一斑。现在手机软件商店里有成千上百种的软件，开发者的设计初衷都是为了在生活的每一个细节上便利我们。然而为了追求简便，我们却把生活变得越来越复杂。

我们想要一个大跃进式的解决方案，找到方法部署一些与周围环境毫无违和感并且懂得理解语境的机器大脑，在动态的情景下为我们提供最佳的解决方案——就像每个人都很眼红的、电影《星际迷航》或《她》里面的电脑。那种电脑会帮我们处理各种事宜，从日常琐事到疑难杂症无所不能，在与用户的交流过程中还会不断自我更新和升级。

我们想要无形的电脑，无形实际上指的就是没有实体的电脑操作。要实现这个想法，我们就要设计一套全新的用户体验方式，让电脑无形地围绕在我们身边，同时行为举止就好像真正的人类一样。

隐形的机器

现如今，我们使用的数码产品大多都是带显示屏的，但这都是些不实用的玩意儿，动不动就要充电；不分场合地在吃饭时打扰我们，还占地儿，塞口袋里硌得慌、桌子上挤得慌、甚至连墙上都不放过。我们之所以这么忍气吞声，是因为这些东西好歹让我们能便利地沟通，提供了前所未有的资源渠道。但是这些缺陷是可以改进的，随着新兴技术的发展，新型、轻量级的用户界面得以发展，这类新产品将会开辟一个新纪元，让电脑更自然的融入人类日常生活。以下是四个助于推动无实体电脑操作的界面：

声控界面

和电脑交流在以前一直是只在科幻电影中才会出现的场景，也一直被视为是人机交互的里程碑之一。如今，和电脑交流却是很稀松平常的事了：Siri 语音助手已经是苹果公司整个产品生态系统的主心骨；亚马逊推出的一款声控虚拟私人助理产品 “Echo”，在今年黑色星期五的购物狂潮中成了一百美金以上的亚马逊产品中最畅销的；甚至还有一款芭比娃娃（叫 “Hello Barbie”）产品是可以和人说话的。声控已经成为现代电脑系统中 “永远开着” 的部分——用户可以做出定制化的特别指令，系统也会根据语境分辨出各种指令的口语化表达。

但是，不管我们把声控系统做得多完美，哪怕做到和一个专职的真人助理一样聪明，也无法代替其他所有的输入形式。就算对象是人类，如果指令内容需要精确性或者有一定的复杂性的话，通常布置任务的过程都会变得缓慢、不便而且产生误差。所以更不要说给机器发号施令了。更有一部分的困难之处来自于用户本身，有很多人根本无法组织出连贯的一句话来表达指令，对他们来说还不如在电脑上按几个键来得快。不管语音识别技术发展得有多先进，由于环境噪音的影响和社交礼节的需要，键盘和手动输入仍将是电脑信息输入的重要方式。

抬起头，解放手

（电影 Her）

要和存在于无形的电脑交互，需要的东西可比单纯的触摸屏要多得多。触摸屏、键盘和鼠标这些硬件虽然不会马上就被淘汰，但是在未来计算中有逐渐退位的趋势。老派的人机互动界面 WIMP 模型（Windows 窗口 Icons 图标 Menus 菜单 Pointing 指针选取）仍然是高精度的多任务界面典范（比如制作电子表格和幻灯片之类的场景）。但要是想跟着电脑上的菜谱学做菜的话，这个界面模型就派不上什么用场了。笔记本电脑、平板电脑和手机也许在平时是效率神器，但要是你想在揉面团的时候滑动菜谱的话，它们反而会变得不太好用。我们需要一种新型的人机交互模型，能真正地解放双手，让我们全神贯注在手头事务上。

再来说说增强现实技术吧。增强现实技术旨在不脱离现实世界的前提下让我们能更多的事情，而不是强迫我们去操作一些设备。目前我们能体验到的增强现实技术还没法与科幻电影里的那些黑科技相提并论。比如《终结者》中出现的内置 “生化眼” 概念，通过视觉增益来流畅地显示电脑处理过的图像和信息——短期内我们是达不到这种水平的。虽然此类科技在未来会产生深远的实际意义，但目前我们仍需解决一个非常现实的问题，就是如何改善增强现实设备的便携性。俗话说的好，“眼睛是心灵的窗户”，或许如何成功找到一个合适的脸部穿戴方式将是个巨大的挑战。

我们也可以用一个方便的办法来模拟出增强现实的效果，那就是用投影仪将电脑界面投到我们周围的任何平面上——比如桌子、墙壁，以及家里、办公室和公共空间的地板上。如果足够普及的话，我们就能用这种方式离开电脑进行人机交互了，我们就能在厨房里忙得不可开交时——也就是双手和台面都沾着东西的时候——与电脑进行交流并且寻求帮助。这也意味着在双方共享的平板电脑上用投影仪就能实现面对面的合作，那么任何平面都能成为投影屏幕，并且能如我们所愿，呼之即来挥之即去。

在为设计公司 Frog 和 ArgoDesign 效力的过去几年中，我和 Jared Ficklin（原 Frog 设计合伙人，曾推出一套通过声音和手势的控制系统 RoomE，可以连接家庭照明、计算机和其他设备，2014 年与本文作者一起创立了 ArgoDesign，译者注）一直在研究这种想法的可行性。而现在我们已经建立了一个雏形。

电脑的合奏

工作中，团队合作的重要性不言而喻，但很奇怪我们能实际用来共享资源的途径却少得可怜。现在我们使用电脑的方式非常简单粗暴——一人操作一机。这让设计、售卖和操作电脑变得简单，但是也有不可避免的局限性：如果你想问电脑一个问题，首先你找到一台电脑摆在你面前，无论你是正在跟朋友唠嗑还是在开车途中。你需要一台电脑，准备好软件，连上网，才能问这个问题。而且你需要把这台电脑随身带着走。

那么来畅想一下，如果你家里、车里和办公室里全部都是灵活又无所不能的 “虚拟电脑”，这些电脑会根据你当下的需求通力合作，这边唱来那边和，像一场和谐美妙的音乐会。这种电脑运作方式对办公室工作来说再适合不过了，以往开会时人人都捧着手提电脑，揣着手机，戴着手表，会议室有顶棚投影仪、视讯会议系统等硬件设备。在现阶段，这些设备都是孤立运行的。

想象一下这样的场景：这些设备知晓会议的语境和内容，通过互相合作来精确地记录会议内容，识别出每位发言者，将录下的内容转译成详细的会议笔记并标注上对应的项目执行方案。这些内容也会自动和主要文件一起以安全的方式共享给每个与会者。像这样的整体解决方案将彻底改变社交互动和会议的价值——从正式的大会到茶水间里的讨论，都会被影响到。

这种系统的根本理念并不新颖，早期的 UNIX 系统（一种多用户的电脑操作系统）就已经设计成这样了，键盘和屏幕放在桌子上，关键的中央处理器也许单独放在另一个房间，而存储单元又在别处。随着个人电脑的出现，以及在办公室里文字处理、做数据表格和发邮件这些活儿的需求，所有硬件被一体化了，分散式的设计已经过时，所有事儿都在一个单独的电脑前完成。但是我们现在又开始重操这种旧的理念，尝试融入创新的想法来打造全新的电脑界面。

如今的电脑、手机和手表都试图通过云端服务无缝连接来给予我们最佳的用户体验。那么成功打造出未来的无实体电脑之后，我们也可以将 “云端思维” 的套路延用到电脑界面上，在用户的接受和使用范围内将所有虚拟设备连接在一起，组成虚拟的实体电脑。

把世界当成你的用户界面

我早前有写过一个想法，要将人工智能渗透进我们周围那些 “傻玩意” 里——比如电灯开关，门把手，盐瓶之类——让它们在我们需要的时候提供帮助。

我们为啥需要一个智能盐瓶呢？最近红得发紫的 “物联网” 概念（那是一个美丽新世界，所有日常物品都有高速计算和通信功能）面前的一个主要障碍，便是在于需要实现计算设备的大规模增长，以及相应的运算处理能力、网络设备和供电方案。所以正如云计算把昂贵又复杂的电脑转到集中的服务器集群运作，好比是从古老的单台发电机模式转向了电厂集中供电的模式，智能傻瓜机（SDT）这个概念能用更少的集中资源给人们的生活提供更便于使用、更实际的物联网。

在你联想到迪斯尼动画电影《美女与野兽》中会说话的蜡烛先生卢米亚之前，请让我再来深入说明一下。目前我们对智能家居的理解是遥控灯光和墙壁开关、温度调节装置和遥控音响等等。即便只是 “智能化” 一个很小的房间，你也需要安装三四件设备，每一件设备都要独立供电，要管理，还有网络连接等各种需求。

而我们的智能傻瓜机仅需要依赖一样设备，它位于房屋的中心，虽然隐形看不见，但它一直通过电脑的上帝视角，连接各种用户界面或者智能家居用品，“注视” 着屋子里进行的一切人类交互行为，然后将这些交互行为转化为一项项智能家居需要完成的任务。这样一来，原来单调的电灯开关就可以被 “驯化” 成智能控制开关。再举个例子吧，餐桌上的盐瓶也可以进化成你家庭立体音响的音量调节旋钮。我们周围的整个世界都能变成一个巨大的电脑界面——任我们呼之即来，挥之即去。

（更）智能的机器

如果单单只是轻量级用户界面的快速发展，并没有办法推动电脑运算的革命。我们还需要人工智能来补上最后一块拼图。

人类对人工智能的美好希冀，一度被影视作品里那些 “有七情六欲的机器（像真人一样思考和行动的电脑）” 这种说法带到沟里去了。在遥远的未来也许这会成真，但现在我们还是要耐心地结合实际情况慢慢来。比方说在 Argo 设计公司的时候，我一直与 Cognitive Scale 公司合作，为 “认知式计算机” 设计用户界面，帮助人类完成复杂的工作。“认知式计算机” 没有感情，但它能够识别复杂数据的模式，根据当下情境迅速进行自我调整，用大白话向用户提供可靠的建议，甚至代替用户做出决策。与用户工作交流的时间越长，系统就能根据当前用户的需求进行升级，优化工作能力。

在像医疗卫生这类的行业，通过优化数据管理方式和决策机制就能省下数十亿的资金，这类的电脑系统就如同公司的虚拟伙伴一样运作，同时结合了人脑和机器的优点。试想一下，在一家大医院工作的医生，有具备认知的电脑自主地将地区花粉量和个人的医疗记录联系起来做比较，识别出哮喘发作的高危人群，然后系统会通过手机短信的方式提醒这些潜在的患者，根据患者的不同情况给予预防建议，同时也会通知一些相关的急诊科室要做好会有哮喘患者集中发病的准备。这些都不是科幻电影才会出现的场景，是当今电脑最振奋人心也最有深刻意义的发展。

传统的电脑运算需要人们集中注意力输入特定的信息，而认知系统则能大幅度的节省时间，它能参与到日常对话中，解读语境，并做出它认为对用户是有用的结论。系统在处理用户明确要求的内容以外，还能主动地替我们收集信息，整理之后提出建议。为了在日后能够做出更完善的建议，系统还会不断从以往的工作中学习经验。

一个 “暗号” 你就懂

要做到这点，我们需要一个全新的用户界面——一系列专为人机交互设计的 “暗号”。我们都知道屏幕上的小垃圾桶图标表示删除，但当我们重新定义运算方式之后，我们需要再开开脑洞。想想我们会怎么发出指示？人类天生就会用声音，手势和触摸来表达想法，那电脑要怎样来回应我们的指示？毕竟它们要不动声色的完成手头的任务，不让我们分心地处理好一切。

在这方面，我们也不是白纸一张。各种代替提示音、手势操作和对话框等传统人机交流方式的想法已经初露峥嵘。这些 “暗号” 模仿人类日常发出的信号（叫做 “交际用语”）——包括眨眼，点头和耸肩等——用于促进人机交流，减少因指示不明出现工作中断的情况。这类环境感知式的电脑会需要在交流间隙向我们提问，而不断丰富之后的 “暗号” 都将被加入到人机交互的全新语言库中，用以优化交流过程。

现在，如果我们做某事时被电脑打断，大多是因为收到系统提示，又或者是别人发来了什么信息。同样地，我们用电脑上网搜索时，电脑检索到的资料也大多是别人创建然后放在网上的。这样一来，你能通过电脑得到的信息的多样性和精确性就局限于他人所创建的内容。电脑最多能按你的要求搜索出结果，后面就撒手不管丢给你来处理。但是认知系统就能大幅改变这个情况，系统不仅能帮你省时省力地收集好信息，还能通过运算得出精确的结果或是假设。当电脑开始能做如此丰富的交流，我们将在好几个方面都遇到挑战。

现在我们用电脑处理复杂的任务时，我们并不期望有高质量或者高精确度的结果。这种低期望值甚至表现在语言上——我们把电脑查询叫做 “搜索”，不是 “提问”，电脑给我们的不叫 “答案”，叫 “结果”。所以我们仍然习惯于人工筛选 “结果” 寻求正确的 “答案”。而当我们开始依赖认知系统提供精确答案的时候，提高精确度的责任就在系统身上，“证明” 它是如何得出结论的，并以此来赢取我们的信任。比方说，医生需要对他的电脑有着绝对的信任，才能采纳系统给出的关于如何治疗患者的决定。

问题在于，电脑要如何才能赢得人们的信任呢？人类用不同的语言来表达不同程度的确定性：“有一定的几率会下雨”，“飞机可能会延误” 等等。我们用不同程度的对话来验证假设：“你怎么知道就是那样的？” 那认知电脑能否用视觉上的 “暗号” 或者是语言的方式来传递它的可靠性呢？

新型的用户界面要充分显示出电脑（而不是人）是什么时候运算出了结论，并且用一系列相对应的指标来代替传统的 “人类信号” 传达得出结论的可靠性。我们有很多像 Cognitive Scale 公司一样以数据为核心的客户，因此我们一直在开发基于数据的用户界面来解决上述的问题，在传递内容的同时用全新的方式显示内容的可信度。这种反馈方式不仅能促进信息的进一步解读（“我们相信事件 X 是真的” 或者 “看起来事件 X 好像是真的”），还能促进像 “信度计（用来显示确信度）” 之类的次级 “暗号” 的发展，让用户理解世界不是非黑即白的。

认知系统需要用自然、快速和直观的方法来建立信任。从这个角度来看，我们需要解构人类是思考和交流的方式。了解一个人最好的方式就是看他如何做的决定，哪怕是日常琐事——比如苦恼中午吃啥这样的事。我们的任务，就是要在各种情境下帮助认知系统尽可能的提高做决策的可信度。

定制化电脑

还记得那个回形针 “大眼夹” 吗，那个 90 年代微软的 Windows 助手，每隔几分钟就要跑出来给你提一堆没用的建议的家伙？“大眼夹” 在当时是一个大写的失败，因为微软试着让它以真人一样的方式和用户交互，但实际上除了烦人之外没有丝毫别的人类特征。早在 70 年代，仿真机器人届的教父级人物森政弘（Masahiro Mori）教授最早提出了 “恐怖谷” 的概念，用来描述他观察到的人类对仿真机器人特性的厌恶和反感之情。我们能安然接受电视里的卡通人物，但是现实世界里的机器人却让我们毛骨悚然。

原因就在于我们从骨子里就对真实人类的行为方式亲近，仿真机器人虽然是机器，但是高度拟人的表现实在让我们觉得诡异。我们对认知系统其实也有着复杂的感情，一方面我们想让电脑和我们人性化交流，但另一方面我们又十分抗拒他们过于像人的行为。随着电脑从原本迟钝的工具进化成具有智能行为的系统，如何解决这个矛盾成了将来设计用户界面最大的挑战。

如今我们和软件的交流都是不带感情色彩的，机器压根不认识我们，它们的应答也都是相对固定的。例如，若我用谷歌地图搜索从家到公司的路线，我每次得到的都将是相同的结果，谷歌并不会根据每天不同的交通状况为我规划不同的线路。

而认知系统天生就会学习并模仿用户的行为模式，随着时间增长系统就能根据用户个人情况作出更为丰富细致的回应。每当系统碰到无法理解的抽象概念，它会做两件事，首先运行软件算法——其实就是一个概率测试——对这个抽象概念作出把握最大的假设。然后系统会向用户要求进行手动输入，在系统里增加新的定义。

每个人都有自己的习惯和偏好，我们希望电脑能学习用户个人情况来适应我们。举个例子，你正在进行一个非常重要的电话会议，而你的个人助理突然打断你，只为了告诉你老婆打电话来查岗了，那你可能会告诉秘书下次发个信息就好了。同样地，你会想要 “训练” 你的电脑，让它知道在什么时候、用什么方式来提醒、通知你，或者什么时候才有必要打断你。

想要训练机器，我们必须方法得当，让机器知道怎样处理它不能理解的事，然后再用我们给它的能力去弥补系统的认知缺陷。要让机器知道，什么时候告诉我们信息最好，哪些时候要先保留信息回头再说，还有哪些时候要 “忘记” 信息。这些 “教学时刻” 是可以在潜移默化中发生的。回到文章开头说的那个 “披萨红酒电影之夜”——假设你手机上安装了认知系统程序，程序就会自动帮你挑选出正在营业、有外卖服务、评价还不赖的披萨店。

如果你偏好某家披萨店，它会记录下来作为下次筛选的依据。程序还会将你对披萨的偏好和你喜欢的红酒、电影、交通路线、购买偏好关联在一起，这样一来，搞定你美好的放松之夜就简单得多啦。

认知电脑能和隐形用户界面是天生一对。那么下一步就是创建一系列流畅、高品格的产品、服务和用户体验。作为用户，我们一直希望能有更简便的方式来完成诸如点个外卖或者打个的之类的日常琐事。作为专业人士，我们则希望电脑能作为工具帮人类实现更多成就，但同时又不会碍手碍脚反而坏了事。最受用户欢迎的，是那些能不费吹灰之力就满足用户的需求，又不会用力过猛让用户看出其中门道的产品。

我个人的希望就是科技巨头们能持之以恒的挖掘下去，不管怎样，我们需要一个划时代的标志来证明，像是 iPhone 的来临那样，向世人展示未来电脑的美好前程。实现这个梦所需要的运算能力和海量数据都已准备得差不多了，现成的硬件技术就能满足大多数的需求。而最大的挑战就在于要把所有零件完美衔接，创造出能和人类自然流畅交流、并且可以被我们信赖和 “训练” 的环境感知式电脑。

法国浪漫爱情故事《大鼻子情圣》中，大鼻子希哈罗一直躲在暗处默默帮不善表达的克里斯蒂安写情书，追求他的梦中情人罗克珊。也许未来某一天，我们也会有这样的浪漫经历，电脑将默默守候着我们，做温柔的抚慰者，而更重要的是——它将连接所有的节点，简化我们复杂的生活。