人机交互的未来——与虚拟角色进行情感交流

来自 TechnologyReview 的一篇题为《心理学家为虚拟角色发布情感需求的插件》的报道让我们可以畅想未来的人机交互又将给我们带来什么样的惊喜。

1942 年 2 月世界上第一台电子（电子管数字）计算机 ENIAC 的出现就是为了能帮助人们从繁杂冗长的科学计算（比如计算弹道轨迹或飞行器的运行轨迹等）中得到解脱，但由于受限于当时的计算机硬件技术水平的发展（还没有集成电路等微电子行业的诞生）计算机所能做到的事情还是很单一很局限。

电子计算机经过四代的发展从原先极少数人能够接触到的大型机到现在早已成为人们日常生活必不可少的个人机（或许 10 年前还算是奢侈品但如今早已成为必需品）。尤其是史蒂夫·乔布斯（Steve Jobs）和史蒂夫沃·兹尼亚克（Steve Wozniak）开创了个人计算机时代。但是只有计算机还不行，为了能让计算机实现我们交给他的任务，这就需要一种软件平台能够与计算机进行交互，以访问和获取计算机上相关的设备与资源（CPU、显卡等），这样操作系统就应运而生。之后大量的应用软件和游戏也是雨后春笋般的出现。

从某种意义上说，操作系统实现了各种计算资源的整合，实现了各种资源之间的相互调配与协作，这可以说是各种计算资源间的交互。但这样的交互离不开人的早期或在过程中的参与，因为特定功能的实现需要人们告诉计算机如何去做，大量的软件工程人员和算法研究人员为此付出了巨大的努力。

人机交互，其方式简单来说包括输入方式与输出方式。

对于输入方式，早期的个人计算机是从控制计算机上的大量可控开关（Switches）开始的，比如著名的牛郎星 8800（Altair 8800）到了后来配备了键盘如 Apple I ，最让人激动人心的就是 1984 年 Macintosh（后简称 Mac）第一次将鼠标设备作为一种输入方式引入个人计算机。

对于输出方式，从早期的纸带打孔（其实也可以作为一种输入方式）到后来的 CRT 显示器，这些变化带给我们的影响是显而易见的，回想当初老板说他们那个时代写代码和看结果都是在纸带下完成的，这在今天的我们会感到是多么的无措。

当然 Mac 带给我们的不仅仅是在当时看起来有多么新奇的鼠标，他也将枯燥的命令行界面用更加友好的图形界面通过 CRT 向人们展示出来。这些造就了当时全新的人机交互模式——鼠标、键盘和通过 CRT 显示出的图形用户界面（GUI）。

我们后面将不再分开讨论，因为人机交互本身就是一个包含输入和输出的系统，我们站在这个高度上来讨论如今的人机交互给我们带来了什么。

经过了 20 多年的发展，显示设备有了开创性的突破从 CRT 到 LCD，显示技术也由 TN 升级到 IPS（之后还要加入铟镓锌氧化物 (IGZO)）以及 AMOLED ，甚至柔性显示技术等。显示屏的尺寸种类也更加广泛，大到 84 英寸的液晶电视小到索尼最新发布的头戴式显示器中 0.7 英寸的 OLED 显示屏，各种大小的显示屏涉及到我们生活的方方面面。

然而这些变化除了使体积改变（追求更大或更小）或功耗更低或显示效果更惊艳（色彩的还原或更高的 PPI 等）以外，带给我们这些消费者真正革命性震撼和影响的却屈指可数。唯独 2007 年苹果公司发布了其第一款智能手机 iPhone , 带给我们革命性并具有深远影响的使用体验——触控, 这就为人机交互领域带来了浓墨重彩的一笔，有人说再这之前早有就电阻式触摸屏，但其使用体验不如你用手指来的自然与友好。

这 20 多年来计算机硬件的发展，鼠标和键盘一直伴随其中，虽然外观几经发生变化但基本的敲击键盘、点击鼠标按键与滑动鼠标的操作一直未曾改变。当然这种状态还将维持相当长的一段时间。这期间值得一提的变化是笔记本电脑的出现带来了触控板（当然也有 IBM 著名的小红帽指点杆）。期间也出现了摄像头，其可以采集视频信息或与朋友进行视频聊天，但这仅仅只作为一种旁支的输入，本身不会与计算机产生互动。

直到 2009 年 10 月 20 日苹果发布了 Magic Mouse 第一次将触控功能带给了鼠标，这增加了我们人机交互时的乐趣，后来微软也发布了 Touch Mouse。苹果公司一直致力于更好的改善人机交互方式使其更自然更友好，其给 MacBook 的触控板也带去了新奇的体验甚至还单独搞了一个 Magic Trackpad 作为补充。这些产品的发布不仅给我们带来了耳目一新的感官享受，更带给我们在与计算机交互时更自然的体验。

在丰富了我们的手指文化后，人机交互又被微软推向了另个一高潮。2010 年 6 月 14 日一个让我们激动万分的深刻，微软正式发布针对 Xbox 360 的体感外设 Kinect ，这个小东西使我们的人机交互体验从手指上升到整个肢体，使用肢体语言来与计算设备交流。他不仅包括了日常普遍使用的 RGB 彩色摄像头，还包括了由红外线发射器与红外线 CMOS 摄像头构成的 3D 结构光深度感应器，同时也有追焦技术与阵列式麦克风。

这些复杂的软硬件结合系统构成了这个聪明的小家伙。在对用户面部识别与肢体判断中所使用到的技术涵盖了机器学习、图像处理与计算机视觉的相关领域。可见其背后的强大算法支撑起这个革命性的全新人际交互方式，这是那么自然、友好甚至更有趣。

而这篇《心理学家为虚拟角色发布情感需求的插件》的报道，让我们对未来的人机交互变革又充满了很多期待。文中谈到，Paul Ekman 是美国的一位心理学家，在上世纪 70 年代, 他和同事开发了一种方法来分类和评估人的面部表情。那时许多心里学家认为人们的面部表情是从一种文化向另一种文化传递人们的具体情感变化。

通过 Ekman 的方法所获得的针对全世界所有文化间人们面部表情的开创性数据库，但是他们发现在所有文化间，人们针对六种基本的情感——生气、恐惧、高兴、惊喜、厌恶与悲伤都具有一样的面部表情，也就是说面部表情的产生不存在不同文化间的传递。他们因此开发了名为面部行为编码系统 (Facial Action Coding System or FACS）的面部表情分类法, 根据这个分类法能够识别出每一种表情所对应的面部肌肉的移动。

这套系统不仅对心理学家研究情感在日常生活中的作用非常有用，而且完全可以挪用到虚拟世界中。FACS 可以用相对容易的方法直接为由计算机生成的虚拟人物提供真实的面部表情。这样虚拟人物自然而然就具有了与真实人类相似的情感因素。但这需要建立一个标准的面部表情数据库，如今 Delft 大学的人机交互系学者 Joost Broekens 及其同事就做了这样的事情。他们实际上基于 FACS 创建了一个包含六种虚拟表情的数据库，每一种表情就是一个向量集合，其中包含的这些向量用来表示一张活泼的脸庞上不同部分是如何移动以模拟一个基本的情感。

当然通过计算机创建的虚拟表情仍需要我们人类自己先行评估，具体来说是找了一些志愿者询问他们当一个虚拟角色（Avatar）靠近或走远或从一侧观看时，其面部表情表达了什么样的情绪及其强烈程度。实验结果显示这些由计算机产生的虚拟表情或多或少传达了同真实人脸所传递的一样的情感。为什么是或多或少，因为这确实有一些主观色彩的问题不那么好解决，比如一张恐惧的面部表情也可能看起来是一张吃惊的面部表情，一张厌恶的面部表情也可能与生气时的表情相混淆。

有意思的是 Broekens 也进行了这样的实验，将两种基本的虚拟表情做个简单的线性组合生成新的表情，然后让志愿者们做评估。例如将高兴的表情和生气的表情做线性组合就可以传递出邪恶或顽皮的表情。人们的面部表情其实是很丰富的，可以猜想作为六种最基本的表情通过将其不同的线行组合就能够产生许许多多丰富的表情，这肯定是一件很有趣的事情。对这个实验感兴趣的读者可以参阅这片论文。

虽然可能六种基本表情未必能最本质反应人们的情感，但这样的选择足以包含日常生活中人们常用的情感表达。通过对虚拟人物增加了丰富多彩的面部表情信息后，将为我们的人机交互带来全新的体验。尽管微软已经将 Kinect 做了很多深度开发比如增加了视频会议或社交元素，其中的人物都是计算机生成的虚拟人物但如果将这些人物同时赋予能够表达人类情感的面部表情信息，这又将为我们提供更加有趣的交互体验。

现在可以想象，通过计算机视觉技术对你的面部进行分析识别出你的大致年龄（国内外有相关学者正在从事这样的工作），然后生成年龄匹配的一个虚拟人物，再对你的面部表情实时分析，给你的虚拟人物也同时附上相似的虚拟表情，这样在虚拟世界中就产生了一个近乎真实且富含感情色彩的你，再通过 Kinect 就能与其他的虚拟人物进行情感互动，甚至是计算机本身虚拟的人物。这必将引领人机交互领域的大发展，其背后强大的学习算法和识别方法以及云计算技术将功不可没，相信未来的人机交互将更加多姿多彩。

图片来自 2009 年电影 Avatar 的剧照