从豆包到 Kimi,为什么 AI 产品都在做浏览器插件
我的浏览器,已经被各种 AI 插件包围了。
它们不仅占据了右上角的工具栏,也聚集在右下方的浮窗,让极简主义者心头一紧。
从百模大战开始,一名成熟打工人的主要矛盾,就变成了增强生产力的美好需要和 AI 助手的选择困难之间的矛盾。
如此看来,另辟蹊径做插件很有必要。我的使用时长,其实也看哪个 AI 主动来找我。
更轻便的功能,更广泛的陪伴
目前的 AI 浏览器插件,大概可以分成三类。
一类是基于自有大模型的伴生产品。
7 月 8 日,Kimi 智能助手推出了浏览器插件,我们第一时间写了体验文章。之前,第三方开发者也做过插件「Kimi Copilot」,这次是官方亲自下场。
为什么推出插件?事实就是,我们没法在全屏对话的 Kimi 主站做完所有事情,但插件可以让你在任何网页随时可用 AI 功能。
想象一下,浏览新闻网页看文章时,术语看不懂,人名不认识,使用在线文档写作时,某个问题不确定,但我们不想打断此刻的状态,切换到其他页面搜索。
这时候,Kimi 插件可以当即搜索、答疑解惑、总结全文……再不济,插件也起到引流作用,让你一键跳转到 Kimi 主站。
英雄所见略同,Kimi 的竞争对手豆包,更早地推出了插件,Kimi 能做的,它也都可以。阅读和创作的不同场景下,豆包插件的功能稍微有所差别。
在网页端选中一段话,豆包插件支持 AI 搜索、解释、追问、翻译等。
而打开在线文档选中一段话,除了以上功能,豆包插件还支持修正语法、调整语气。
最让我觉得实用的,其实是豆包领先 Kimi 的两个插件功能。
一个是视频总结、脑图、时间线梳理和跳转功能,YouTube 和 B 站都适用,Kimi 插件目前还不能总结视频内容。
还有一个是收藏功能,不管是刷到好玩的即刻、微博动态,还是看到文章里受益匪浅的段落,都能一键保存到豆包主站,并附上原文网址,方便之后查看。做产品,还得看字节。
AI 浏览器插件的第二类,是基于既有模型的「套壳」产品,其中代表是 Monica。
这是一个基于 GPT-4o、Claude 3.5 等大模型,支持 Google、Bing 等搜索引擎的插件。
我们可以和它对话,让它搜索,写作,翻译和解释选中的文本,总结 PDF、网页、邮件、YouTube 视频……
简言之,一个能聊、能搜、能翻译、能总结的全能 AI 助手,以插件连接了一众 AI 产品,实现了「all in one」的体验。
不过,相比免费的 Kimi 和豆包插件,「白嫖」Monica 有额度限制,解锁更多功能需要订阅。往好了想,总比单独订阅多个 AI 产品便宜。
还有一类 AI 浏览器插件,扎根垂直的赛道,满足小而美的需求。从我们科技编辑的角度看,比较常用的有两个。
首先是通义听悟,实现各种网页的语音转文字,支持开启实时双语字幕,结束录音之后可以总结内容和提取重点,很适合用来追发布会。
其次是沉浸式翻译,实现各种网页、视频甚至 PDF 的双语对照翻译,不像 Google 翻译那样覆盖原文,冲浪体验更好了,也更方便核查信息了。
同时,沉浸式翻译针对游戏网站、社交媒体等不同场景推出了专家翻译功能——本质上是一系列精心设计的提示词。我们也不必复制文本到 ChatGPT,自己写提示词让 AI 以某种口吻、某个身份给我们翻译了。
Kimi 团队说,Kimi 插件像一个「轻量的小搜索」,帮你解决碎片化的小问题。这句话也适用于其他 AI 产品的浏览器插件形态。插件,是 AI 落地的轻巧尝试。
不管你是在阅读、写作还是看视频,不管你打开哪个网页,它们中的一个或者多个,都可以围绕人类的脑力活动,扮演好辅助的角色,弥补之前上网时不舒服的细节、不到位的体验。
存在感太强的插件,有时候是种干扰
然而,就像去年的大模型、今年上半年的 AI 搜索一样,插件之间的竞争也很激烈,功能之间有重合,甚至已经开始打架了。
添加到工具栏之后,AI 插件们基本都有强烈的跟随性,希望在用户面前秀存在感。
它们招之即来,可用快捷键唤起,以悬浮按钮出现在屏幕一角,以侧边栏出现在网页右侧,还在你选中某个句子的时候争相跳出,想为你提供服务。
▲ 选中句子,Monica、豆包、Kimi 都会出现
不过,它们也可以挥之即去。Kimi 是否显示悬浮按钮,以及是否在你选择文字后跳出按钮,都是可选的。豆包和 Monica,也都支持隐藏按钮。
围绕生产力的通用型 AI 插件,功能大而全,基本满足了以下几个需求:划线解释、辅助创作、内容总结……
用户上网的核心需求,可能就这几个,如果同时由几个 AI 插件满足,会让你陷入选择困难。其中,豆包和 Monica 尤其容易狭路相逢。
看 YouTube 视频,豆包、Monica 都会帮你总结亮点和时间线。
用 Google 进行传统搜索的时候,豆包、Monica 都会在结果页面右侧回答问题。比如,Google 搜索「豆包简介」,豆包介绍了自己,Monica 介绍了叫作豆包的美食。
不过,豆包比 Monica 还多了一个功能:鼠标选中一条链接,但不点击,豆包也会帮你总结内容,然后你可以再打开链接看详情。
至于辅助创作,就更加夸张了,几乎任何一个输入框,包括 ChatGPT、微博、豆瓣,Monica 的「紫色小点」都会出现。
点开之后是「写作助手」,AI 问你需不需要写些什么,是求职信还是邮件,内容生成之后可以直接插入输入框。
类似地,豆包也有个「帮我写」功能,输入主题,帮你生成小红书、抖音等风格的文案,然后一键插入到输入框。
古人言,凡有井水饮处,即能歌柳词。现在这句话可以有互联网的版本了:需要生成文案的空白处,都可以留下 AI 生成的大作。
但可能,我们只是想自己写个吐槽,或者和 ChatGPT 聊聊天,这时候,图标就显得有些打扰,需要你手动关闭。
这些表演欲极强的插件,有点像 2000 年前后教新用户用 Office 的微软吉祥物「大眼夹」。当时,你新建文档,或者打出「Dear」写信,大眼夹都会不由分说地突然出现。
大眼夹的问题是,能帮上的忙很有限,在 Office XP 上线后就失业了,微软觉得,产品本身已经足够简单和易用。
而插件的问题是,有用,但功能大同小异,如果没有涉及刚需,偶尔会让人觉得有「侵入感」。
就像之前我问一位同事,能不能推荐一个 YouTube 翻译的好用插件。他一时给不出答案,因为类似的插件太多,不置顶到工具栏,就会把它们忘掉。
AI 成了信息入口,哪里不会点哪里的浏览器来了
AI 产品自己的衍生插件已经泛滥,同时,也有为 AI 产品服务的第三方插件。
其中一款是 Google 插件 AI Home Tab,功能很简单,但理念很有意思。
它可以把你喜欢的 AI 主站设为浏览器主页,同时也可以换回默认主页。
这个插件最主要的作用,其实是潜移默化地改变我们上网的习惯。
为了成为 Safari 的默认搜索引擎,Google 每年都会向苹果支付巨额费用。可见,「默认」对用户习惯的养成,就像地心引力一样强大。
如果我们的信息入口直接变成了各个 AI 搜索工具,或许我们也会越来越习惯,也越来越擅长,通过搜索框和 AI 交流得到答案,而不是在 Google 输入网址找到 AI 搜索。
不过,AI 的幻觉仍然需要警惕,一款叫作 SeekAll 的插件就为此而生。
这是一个浏览器多屏助手,支持一键打开多个搜索引擎,对比搜索结果,同时支持 AI 搜索和传统搜索,目前最多同时支持三个搜索。
更多的插件,更直接的入口,未来,我们的上网体验,或许真的会变成「哪里不会点哪里」。
这个专业术语是什么意思?这个文档里的句子怎么优化?这个 YouTube 字幕能转写成文字吗?都可以等 AI 跳出来帮你解答。豆包插件最近甚至可以总结小宇宙播客了。
反过来,从 AI 初创公司的角度看,开发插件有些像摸着石头过河。虽然 AI 的产品层出不穷,但他们还在寻找更多的细分场景,积累更多的用户数据,训练更强大的模型。
浏览器是我们上网必备的工具,探索 AI 可以满足用户的哪些高频需求,灵活融入网页的浏览器插件或许会是一个比较理想的测试形态。
先不要设定边界,然后才看到更多可能。
未来,上网时的用户界面长什么样子,我们和 AI 的交互形式是怎样的,尚且没有明确的定义。但小步快跑、轻盈迭代的插件们,让我们离一个 AIGC 加持的浏览器更近。