我们需要更多不做大模型的 AI 应用主义者
All in AI ,到 2024 年这个节点几乎已经成了科技互联网公司的主旋律。
仿佛全世界都陷入了AI Fomo(AI 错失恐惧症),科技公司展开了追赶 OpenAI 的大模型军备竞赛,普通个体担心被 AI 取代,于是 199 元的 AI 课收获了大批拥趸。
而在国内掀起的「百模大战」中,金山办公算是一个异类。这家国内办公软件市场份额最高、现金流也十分充足的公司,并没有投入到大模型的竞争中,却在国内最先推出了基于大语言模型的智能办公助手 WPS AI。
在昨天的金山办公生产力大会,CEO 章庆元再次强调金山办公是一个大模型的应用者,目前也接入了国内几乎所有主流大模型。
以这种方式 All in AI 的金山办公,在过去 36 年间从 PC 时代走到移动互联网时代后,正在经历的第三个重要的节点,而前两个节点都影响了中国办公软件的市场的走向。
八十年代,求伯君把自己关在在深圳蔡屋围酒店 501 号房 14 个月,用一台 386 电脑敲出了 12 万行汇编代码,1988 年 WPS 1.0 诞生。
2002 年,金山 6 号员工雷军带领 100 多位工程师花三年重写了 WPS 500 多万行代码,推出了完全兼容微软 Office 的 WPS 2005。
▲ 雷军(左)和求伯君
现在大模型的到来开始改变软件应用的使用方式和开发方式,章庆元认为未来甚至 UI(User Interface,用户交互)这个词都会消失。金山也从去年开始暂停了所有跟 AI 无关的业务,全面转型。
爱范儿曾在年初的 ifanRank 中预测,我们正迈向工具性、普适化和工业化的「大应用时代」,2024 年将看到更多满足消费者或商业需求的 AI 原生应用。
大模型赛道逐渐趋于饱和,接下我们显然需要更多专注 AI 产品落地的公司,将大模型能力转化为行业生产力和创造力。
AI 生产力的迷思
回顾过去一年的爆款 AI 工具,无论是微软的 Copilot ,还是春节开始刷屏的 Sora ,伴随出现的高频词汇往往有两个——颠覆和取代。
尽管这些 AI 工具奔着提升生产力而来,但比起它们可能带来的效率提升,能取代多少工作颠覆哪些行业却总是被讨论最多的话题,甚至还有不少机构乐此不疲计算出精确的百分比。
工具本质是什么?帮助我们更轻松地完成想要做的事。那提升生产力无非就是两种方式,要么提升单个步骤的效率,要么缩减任务过程中所需的步骤,或者两者同时实现。
大模型驱动的一众 AI 工具,则是大大缩短了从提出需求到实现想法所需的流程。
你只要一句话,让 AI 几秒列出大纲,然后生成 20 多页 PPT。
一些需要过去拍摄和后期制作的视频,如今化作一段 prompt 指令。
哪怕是用手机随手一拍的照片,用手指圈一圈就能去掉将路人或杂物。
章庆元在去年接受采访时曾预测,大概再过一年,人们就可以用「100块钱一个月请一个全能Office助手」的方式,实现对办公软件全新的掌控,任何复杂的表单、表格和计算等工具栏都会从办公软件上消失,这种用「订阅」的方式从根本上改变办公软件的商业模式。
这背后其实是 AI 加速了算力平民化的进程。
WPS AI 的产品经理付子豪不久前在一次分享中提出一个观察:大模型的出现不能类比移动互联网出现的状态,它更像是 PC 诞生的时代,云诞生的时代。
随着人类社会出现的需求和场景越来越复杂,大脑的算力已经不够用,我们开始通过计算机扩展算力。但要充分释放计算机算力的门槛并不低,你可能需要懂得编程语言,就算是常用 Excel 表格、PS,要用好也不容易。
AIGC 解决的就是算力门槛的问题,只要用自然语言就能让计算机理解你的思考逻辑 ,并生成结果,极大地缩短从想法到结果的链条。
如果理解了这个逻辑,对 Sam Altman 最近专访关于 AI 将取代多少工作的回答或许更有共鸣。Altman 思考的方式不是 AI 将完成多少百分比的工作,而是 AI 在一段时间内将完成多少百分比的任务。
我认为这是一个比 AI 可以做多少工作更有趣、更有影响力、更重要的问题,因为它是一种工具,可以在越来越复杂的水平上工作,在越来越长的时间范围内完成越来越多的任务,并让人们以一种更灵活的方式进行操作。所以也许人们的工作效率会更高。
这个思考不仅对于用户,对于 AI 工具的开发者同样有价值。因为用户需要的其实不是参数越来越大的模型,而是能让他们更容易将想法落实的工具,就像当年乔布斯一个经典的回答:
必须从用户体验入手,然后再回过头去开发技术,而不是从技术入手,然后再试着想办法,看这个技术能用到哪?
Copilot 的交互
在《大模型元年,人类文明的操作系统正在大更新》一文中,我们提到下一代革命性的人机交互模式可能会是自然用户界面(Natural user interface, NUI )。
NUI 最核心的原则是简单性高于一切。复杂性是自然用户界面的敌人。每个交互都应该是不言自明的,不需要说明手册。
而 Copilot ,则是 NUI 交互逻辑下 AI 工具理想的形态。Copilot 这个词源自飞行术语,指的是协助主驾驶员操作飞机的副驾驶,当主驾驶员需要休息或处理其他任务时,副驾驶员就会接管控制权,二者共同负责飞机的安全飞行。
我认为这也是人和 AI 交互最恰当的形容。微软对于 Copilot 的定义是:一种使用自然语言处理技术或大语言模型,帮助人们完成复杂或认知任务的应用程序或组件。
WPS AI 同样将人机交互作为三大战略方向之一,也把基于自然语言多轮问答式的自然交互称为 Copilot,能够深入植入到文档和协作的各种场景。
比如昨天推出的 WPS AI 企业版可以提供「文理兼修」的数字员工服务,例如阅读助手、画图助手、考勤助手、销售分析、合同分析等等,触达各类细微的办公场景。
其中的 Copilot Pro 则可帮助运营人员使用自然语言驱动 BI 产品分析数据,同时可调用 WPS 365 API和企业自有API,解决办公自动化需求。
GitHub 一项数据显示,在使用 GitHub Copilot 的开发人员中,88% 的人表示他们的生产力更高,74% 的人表示他们可以专注于更令人满意的工作中,77% 的人表示它有助于他们减少搜寻资讯或范例的时间。
章庆元有个形容也十分贴切,自然语言交互大幅降低用户交互成本,意味着 Photoshop 可以直接进入「美图秀秀」这类工具的市场。
用户能以操作美图秀秀的交互难度,实现 Photoshop 中复杂的功能。这样情况正在越来越多类型的 AI 产品中出现。如果留意去年 WPS AI 的更新,也会发现用户界面在不断简化,自然语言的输入开始替代原来一些按钮的功能。
可以看到,目前办公文档处理套件,已经向「 office+协作+AI 」组成的一站式 AI 办公转变。一个产品能高效完成越来越多的任务,但集成的功能模块却越来越少,也将是 AI 工具的趋势。
科技的革新本质上是人机交互的进化,当 Copilot 发展到一定程度,甚至可能整个交互界面本身就是一个超级应用,不仅连功能按钮被取消,甚至很多应用本身都不一定再需要单独存在。
我们需要更多不做大模型的 AI 公司
很多人把大模型或 AIGC 视为第四次工业革命,实际上如果一个技术要被冠以革命性的帽子,实际指的不是技术的突破本身,而是能影响整个商业社会、改变大多数人的生活方式。
无论是蒸汽、电力还是互联网,毫无疑问都符合这些特点,那大模型呢?至少现阶段肯定是达不到这个程度。我们需要的是通过 AI 应用产品将大模型能力发挥出来,从而来影响人们的工作和生活。
▲ 吴恩达
计算机科学家吴恩达也认为, AI 作为新一代通用技术,更多的机会,在于大规模应用落地。
这也是为什么我一开始就说,我们需要更多不做模型的 AI 公司。大模型作为底层技术固然不可或缺,但专注于满足消费者的各种需求以及各类商业交易的 AI 公司绝对需要更多,才能让 AI 在社会层面真正爆发。
就像多点触控技术,早在初代 iPhone 发布 20 多年前就有了成熟应用,但只有苹果让这项技术成为后来几乎所有智能手机的交互方案。
而在这波 AI 浪潮中,也有着不生产大模型,但坚定要做大模型应用者的探索者,金山办公就是其中的佼佼者。
金山办公的策略十分务实,关注落地的场景,几乎与国内主流的 AI 大模型公司都达成了深度合作,包括 MiniMax、智谱 AI、商汤、文心一言、通义大模型等,自己则聚焦落地的场景。
金山扮演的角色就像分诊台,负责判断用户所有的问题和要解决的场景然后调用对应最适合的模型来执行任务。而一些小众场景则由金山办公的自研小模型补充满足需求。
比如商汤在数据分析上比较出色,WPS AI 就调用它处需要理科思维的场景。而像文字、PPT 等场景则通过智谱 AI 等模型来完成。
这样化整为零的大模型应用方式,好处是能充分发挥各模型的长处,实现优势互补,不会受到某个模型能力的限制。即便是 GPT-4,也有一些场景存在短板。
昨天的 WPS 发布会上,开场章庆元提到的一个点让我印象比较深刻。他说今天看到的所有功能,都是马上能体验,一定是落到客户真实的应用场景里的。
AI 除了在聊天框,在长文本处理不断内卷之外,还有什么更有想象力的应用方式?这是值得更多人去探索的,尽管目前大模型应用处于起步阶段,但像金山这样的 AI 应用主义者应该要多一些。