从 Cortana 到 Copilot,微软终于等到了属于它的时代

公司

2023-05-26 14:55

前不久,我们报道了微软在 Build 2023 开发者大会发布的 Windows Copilot ——深度集成在 Windows 11 人工智能助手。

至此,Copilot 已经出现在了微软几乎所有重要产品之中,包括辅助编程的 Github Copilot、辅助办公的 Microsoft 365 Copilot、辅助客户沟通的 Viva Copilot、辅助业务流程的 Dynamic 365 Copilot 等等。

微软比那些宣告自己 AI first、All in AI 的公司还要更进一步,选择 All in Copilot,即全面转向人工智能辅助技术。

我们来到了转折点

看到这里,相信有相当一部分不那么关心 AI 技术的读者还不太了解,「Copilot」到底是什么。

「Copilot」一词源自飞行术语,意思是副驾驶员(Co-pilot)。在飞机上,副驾驶员是协助主驾驶员操作飞机的人,通常当主驾驶员需要休息或处理其他任务时,副驾驶员就会接管控制权,二者共同负责飞机的安全飞行。

对照这个定义,我们就不难理解:每个使用计算机程序的人都是「驾驶员」,AI 则是辅助我们航行的「副驾驶」。

举个例子,当你准备沉下心来办公,你就可以在 Windows 11 调出 Copilot,把你的需求敲进去:

我怎么样工作起来更高效?

Windows Copilot 会建议你打开专注模式,并把系统界面调整成更沉浸的暗色模型。

这时候你还想听一点音乐,再敲入需求:

放点工作时适合听的音乐

Windows Copilot 会根据你喜欢的音乐类型,在 Spotify 等音乐软件上播放对应的歌单。

听起来我们像是又回到了命令行界面时代,通过一个输入框实现所有的计算机操作。但不同的是,你不再需要花时间去学习和理解编程这门专属于计算机的语言,你只要用人类的自然语言把你的需求抛给它,它就能帮你解决。

Windows Copilot 还可以帮你解决很多问题,例如当你收到一份冗长到读不下去的文件,你可以直接把它从桌面拖到 Copilot 上,让 AI 帮你总结这份文档,实现「量子速读」。

你还可以让它帮你重写或者解释文档的内容,提高工作的效率。简单来说,Copilot 不能完全取代你的工作,但它能帮你节约很多不必要的重复性劳动,从而节约你在「数字琐事」上花费的时间。

这也是微软对于 Copilot 的定义:一种使用自然语言处理技术或大语言模型(如 GPT-4),帮助人们完成复杂或认知任务的应用程序或组件。

从拨号上网年代一路走来的朋友可能就察觉到了一些关键要素:

操作系统 + 助手,等等,这不就是 Windows 97 时代的 Clippy 和 Windows Phone 时代的 Cortana 吗!?

没错,Clippy、Cortana 和 Copilot(微软是不是对 C 开头的单词有执念?)在定位上确实存在一定的重合,你甚至可以把它们看作同一款产品在不同交互界面时代的三种形态。

Clippy:图形交互界面的系统助手,其设计初衷是提供了一个平易近人、友好的界面,以简化复杂的操作任务。然而,由于 Clippy 需要通过一个弹窗进行交互,它总会不合时宜地弹出来,导致用户在使用时失焦。

Cortana:语音交互界面的系统助手,对标 Siri 和 Google 助手,定位个人数字助手。但受限于功能局限,Cortana 能做的事情很有限,即便微软尽可能地把 Cortana 推向 Windows 之外的更多平台,也很难吸引用户使用。

Windows Copilot:自然语言交互时代的 AI 助手,它深植于系统之中,又不局限于系统,它可以集成于各种程序和应用中,并且能够理解用户的需求并提供帮助,在功能性、灵活性和集成度方面远超 Clippy 和 Cortana。

从技术发展的路线来看,你会发现 Copilot 与 Cortana 的路径类似但方向截然不同。

2014 年,Cortana 作为 Windows Phone 8.1 的默认语音助手首次亮相,提供语音搜索、日程管理和个性化建议等功能,标志着微软正式进入语音助手市场,与苹果和 Google 竞争。

随后,Cortana 随 Windows 10 操作系统一同推出,拓展到 PC 和平板电脑之上,集成了更多的系统功能,为更多人熟知。

在接下来的时间,微软把 Cortana 塞进了包括 Microsoft 365 套件、Teams 等更多的产品之中,希望能获取更多的用户。

但到了 2021 年,微软决定停止 Cortana 大部分服务,退出这场语音助手大战。

Cortana 的失败不仅是因为其市占率一直上不去,还因为语音助手功能本身很难再翻起太大的浪花:10 年前的语音助手能帮你写邮件、查天气,10 年它仍然只能做这些基础型的工作,用户的感知并不强。

直到 ChatGPT 的出现,语音 AI 助手给人留下的「愚蠢」刻板印象才被打破。

ChatGPT 能够通过自然语言理解人们的需求,帮助人们完成一些需要高智能的任务,虽然 GPT 模型时而会出现生成错误的问题,但已经解决了 AI 助手长期以来的痛点——语义理解。

这是一个关键的转折点,微软迅速地把大语言模型技术与其产品结合起来,丢出了一个又一个让人瞠目结舌的技术 Demo:用聊天的方式在 Bing 搜索、用几句需求做出个精美的 PPT、让 Edge 浏览器一键总结网页内容……

很快,Copilot 将无处不在,AI 将无处不在,我们与计算机交互的固有逻辑开始出现裂缝,一个新的交互逻辑准备破壳而出,重新定义新一代的计算机和互联网。

比尔· 盖茨在 AI 爆发后给出了他的判断。

这是一个根本性的改变,自然语言现在是我们向计算机描述事物的主要「接口」,这是一个巨大的进步。

也就是说,侧边栏 AI 助手将会成为一个新的常态,你的语言会变成像鼠标点击、手指触碰一样具有「魔力」的新交互方式。

只不过,如果你只是把 Copilot 看作是一个新时代的 AI 助手,那你就太小看微软的野心了。

全新的软件形式

前面我们说到,微软为旗下的很多产品都接入了 Copilot,让 Bing、Edge、Office 焕发出新的活力。

更重要的是,这些散落在不同软件的 Copilot 彼此之间并非独立,而是相互打通的。

这里我们要引入一个很重要的概念——插件集。

你可以把这些基于大语言模型的 Copilot 理解成 Chrome 浏览器(当然,这是一个非常不恰当的比喻),而插件就是浏览器上面的扩展程序,有了第三方的插件,Copilot 就能实现很多不同的功能。

 

此前,我们曾详细介绍过 ChatGPT 的插件集体验,有了这些第三方插件,ChatGPT 可以实现订餐、查航班、解答数理化难题等等功能。

现在,这些插件同样可以应用在 Bing、Edge、Office 甚至 Windows 之中,因为这些产品都采用了同样的开放插件标准。

简单来说,开发者只要开发一次插件,就能应用在微软的一系列 Copilot 之中,这给开发者和用户都带来了极大的灵活度。

还是拿实际应用举例。

很快,你可以在 Bing 调用 Zillow 插件(租房信息查询),然后直接向 Bing 提问,「用 XX 预算在 X 地租房有什么房源推荐?」,Bing 就能直接给出对应的房源信息。

或者你可以在 Edge 浏览器上让 AI 帮你总结食谱,然后调用 Instacart 插件,一键购买你缺少的食材。

这是一种全新的信息获取方式,它跳过了从搜索引擎到服务商网站、再到具体信息的过程,直接提取了你最需要的内容,然后以平铺直叙的方式呈现给你。

Copilot + 插件,或许会改变我们使用网络获取服务的方式。

另一方面,在我们最熟悉 Office 套件上,也能够使用插件。

例如当你想用 Word 起草一份法律合同,但是你并不熟悉当地的法律,你就可以调用 Thomson Reuters、Westlaw 等法律插件来帮你起草和修改具体的内容。

插件集的出现丰富了大语言模型的可能性,而一个共同的插件标准又让插件集的作用变得最大化,这就是微软正在构建的 Copilot 技术堆栈,最终共同拼成了微软眼中 Copilot 最理想的形态:

不仅是一种新的程序,不仅是一种新的用户界面,还是一个新的平台。

正如前面所说,大语言模型的出现赋予了软件前所未有的易用性和可操作性,「AI 助手化」会成为软件设计的新常态。

像 Adobe 等厂商都已经开始在自家的软件加入 AI 功能,越来越多的开发者会考虑为自己的产品设计「Copilot」。

微软瞄准的正是这么一个尚处于萌芽时期的新机会,它想要利用自己在桌面系统和办公软件超高占有率的优势,抢先建立起这个全新的平台,领先一众对手。

微软 CTO Kevin Scott 在 Build 大会上诚挚地向开发者们介绍了这个宏大的愿景,他引用了比尔 · 盖茨的一段话:

只有当平台创造的价值归于在平台上进行构建的人,而不是平台构建者本身时,平台的真正价值才会实现。

Kevin Scott 认为像 GPT-4 这样的基础模型很强大,非常强大,但它并不能做所有的事,这需要更多开发者将这样的技术应用到相对应的程序之中,把大语言模型作为构建程序的一部分,AI 才能创造出全新的用户体验。

这是一种全新的程序开发方式。Kevin Scott 抛出了一个观点:

让 PC 、互联网、智能手机变得伟大的,并不是那些随平台诞生而存在之物,而是基于这些之上,被人们重新创造出来的新事物。

当下,AI 正在以不可思议的速度重塑着人们对科技、对世界的认知,它不仅改变了我们处理数据的方式,也在重新定义我们与机器的交互方式,甚至是我们理解和解决问题的方式。

大语言模型的崛起,突破了传统的程序设计框架,AI 开始能理解我们的语言,预测我们的需求,甚至理解我们的情感,用数据和算法的力量解决了以前我们难以想象的问题。

值得敬畏的是,面对这样一场全新的科技巨变,48 岁的微软依然走在技术变革的最前沿。

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中