豆包手机助手让海外炸锅,歪果仁:这是第一款真正意义上的智能手机

产品

2 小时前

没想到在华为 Mate 80 系列、三星首款三折叠接连发布的一周里,最火的会是搭载豆包手机助手技术预览版的中兴 nubia M153。

发售即售罄就不说了,首批工程机在二手平台上普遍加价数百元转卖。相比官方 3499 元的定价,市场需求确实旺盛。

尽管豆包手机助手官方多次强调,目前的技术预览版并不面向普通的消费者。其定位更像是一个技术展示和生态探索的实验田,吸引开发者和技术发烧友参与体验。

但这根本挡不住大众体验的热情。除了点外卖发帖子这些基操,还有网友用它 10 分钟投了 30 份简历。

不过争议也随之而来,微信、淘宝等一众 App,开始通过「环境异常检测」等门槛把豆包手机助手拦在门外。

官方目前也调整部分 AI 操作手机的能力,官方表示希望「推动形成更清晰、可预期的规则」,避免一刀切否定用户合理使用 AI 的权利。

罗永浩则发文力挺,称这是谁都拦不住的技术革命,将来人们会记住这历史性的一天。荣耀表态欢迎,而魅族厂商则表示期待深入合作,打造更繁荣的生态。

而在国内出圈后,豆包手机助手甚至火到了海外,在 X 平台上,一堆老外都在疯狂讨论这事,甚至有人直接给它冠上了「另一个 DeepSeek 时刻」的称号。

海外网友:第一款真正意义上的智能手机

这评价,可不是随便给的。

雪牛资本(Snow Bull Capital)CEO 泰勒·奥根(Taylor Ogan)直接在平台上发了一长串体验报告,兴奋劲儿都快从屏幕里溢出来了。

他的评价很直白:这是全球第一款真正意义上的智能手机。

在豆包手机助手的协助下,AI 能完全控制手机——能「看懂」界面、自己选应用或下载 App、点击按钮、输入文字、拨打电话,甚至还能执行一整串多步骤任务链。

拿到手机后,他整了不少花活儿。比如随手拍张蔚来换电站问「这是啥」,AI 秒答。

拍个酒店门口,豆包不仅能识别出是哪家酒店,还能根据 Ogan 的需求预定房间,并查询宠物政策。

打辆无人驾驶出租车去公园,豆包能够规划好路线,用最近的上车点完成预约。Ogan 全程只需要用语言表达意图,其它都交给豆包。

用它下单两杯饮料后,外卖无人机很快就把订单飞送到附近储物柜。

走在街上, Ogan 拍了家新开的店,问它是不是本地的品牌,豆包也能查询工商和商标信息,然后果断回答:「是的」。

全程 AI 自己干活,人就负责躺平。

一顿丝滑操作下来,海外网友们大为震惊。

随便翻翻评论区,清一色的点赞声。有网友感慨:「此刻,操作系统变成了管家,手机变成了执行者,而不再只是工具。」有网友猝不及防地表白:「我本来就喜欢豆包,现在更爱它了。」

还有网友直接化身「哇塞哥」:

这是下一级别的东西。我在企业级见过类似的东西,Agent 控制你的 PC 并执行任务,但在手机上有这种技术真的很有意思。想象一下,当谷歌开始在 Pixel 设备和几乎所有 Android 手机上这样做时会发生什么……

Pixel 内心 belike,不对劲,怎么感觉有人在点我?

当然,质疑声也有。有人问:「但它真的智能吗?这模型能在设备上本地运行吗?」Taylor Ogan 的回应是:「它太智能了。你可以选择在设备端运行或云端运行。」

在 Reddit 平台上,讨论同样火热。

有网友表示:「只要这些功能是设备本地的(不使用云服务),并且使用是可选的,我就支持这个。」还有网友一针见血地点出了 AI 的真正意义:「这就是 AI 应该做的事情,为个人节省时间,而不是试图消除个人的价值。」

有一说一,在豆包手机助手发布之后,网友分享在 X 平台上的玩法,也是一个比一个「邪修」。有用豆包点咖啡,也有让豆包 AI 操作安卓机,模拟人手滑页面,主打一个全流程自动化。

还有网友用豆包手机助手下单买了个椰子,由于没够起送价,豆包贴心地帮博主选了一个 1.99 元的一包食用盐来凑单。

APPSO 在之前对豆包手机助手的体验提到,我最直观的感受是,手机变「薄」了,它把各个 App 的能力都「拍扁」了,交互更加自然、直观和高效。

问题来了,这是怎么做到的?这和「phone use」智能体又有什么不同?

在用了一周豆包手机助手后,APPSO 也扒出了背后更多的技术细节。

我扒出了豆包手机助手操作手机的秘密

在豆包手机助手发布之前,手机行业其实已经折腾 AI+ 好一阵子了。

手机硬件厂商试图通过系统层级的 AI 能力,打破应用间的壁垒,实现「一句话办事」。比如华为、小米、vivo、荣耀等主流手机厂商的 AI 智能体,都曾在不同场合展示过自动发送消息、执行多步骤任务等功能。

这些演示虽然在具体场景和实现方式上略有不同,但核心逻辑都是一致的:通过 AI 大模型理解用户意图,并结合模拟用户操作,从而实现跨应用的自动化任务执行。

听着挺玄乎,但实际体验嘛……咳咳,还是有不小的提升空间。

而豆包手机助手的下场,进一步掀起了全网的讨论。更重要的是,根据我之前的体验,豆包手机助手的确是真正意义上把 AI 操作手机这件事做到了可用级别,不局限于几个场景,而是能够流畅自然地通过图形界面操作完成长任务、复杂任务。

APPSO 在知名预印本平台 ArXiv 发现了一篇由字节团队发布的技术报告,里面的信息或许能解释其中的关键原理。

附上地址:https://arxiv.org/abs/2509.02544

豆包手机助手的图形界面操作能力,来自字节跳动 Seed 团队开发的 UI-TARS 模型。它把屏幕视觉理解、逻辑推理、界面元素定位和操作整合在一起,其开源版本是目前最受欢迎的开源多模态智能体模型。

根据 UI-TARS 2.0 技术报告,这个模型的厉害之处在于,它不是简单的模块化拼凑,而是采用了端到端的学习方式,将感知、推理、行动和记忆整合在一起。

数据不会骗人,在 GUI 基准测试中,UI-TARS-2 的成绩相当能打:

  • Online-Mind2Web 得分 88.2,
  • OSWorld 得分 47.5,
  • WindowsAgentArena 得分 50.6,
  • AndroidWorld 得分 73.3

这些成绩不仅明显优于前一代模型,还在多个场景中超越了 Claude 和 OpenAI 等强劲基线模型。其中 AndroidWorld 的 73.3 分更是比 OpenAI CUA-o3 模型高出 20 多分,展现出强大的竞争力。

在游戏环境中,UI-TARS-2 在 15 款游戏组成的测试集中取得了平均标准化得分 59.8,约为人类水平的 60%。相比 OpenAI CUA 和 Claude Computer Use,UI-TARS-2 的表现分别提升了 2.4 倍和 2.8 倍。

这是什么概念?就是 AI 打游戏已经快接近普通人类玩家水平了。

在 LMGame-Bench 中,它依然能与当前最前沿的闭源模型掰手腕,进一步证明其在长时序游戏推理中的稳健性。

更厉害的是,UI-TARS-2 不仅能处理 GUI 任务,还能通过 GUI-SDK 扩展能力,与系统级资源(如终端和外部工具)集成。在信息检索任务(BrowseComp 29.6 分)、软件工程任务(Terminal Bench 45.3 分、SWE-Bench Verified 68.7 分)上都有竞争力。

一个模型走天下,这就是通用性的体现。

值得一提的是,通过接近豆包团队的人士透露,豆包手机助手用的 UI-TARS 是私有模型版本,性能比开源版更强,还针对手机场景做了专门优化。这或许也解释了为啥豆包手机助手实际体验这么丝滑。

豆包手机助手,确实有点技能在身上的。

写在最后:科技产品的「异类」可以多一些

作为一个长期关注科技产品的编辑,今年令我十分感慨,在这个恨不得把「万物皆塞入手机」的行业,却出现两个异类,分别在设计与交互的维度上,走向了极致

一个是 iPhone Air,当 Pro 系列不可避免地走向堆料的终局,这种对轻薄的偏执,在参数党眼中或许别无他用,甚至让人一时分不清这是倒退还是进化,直到你把它握在手里,原来,轻盈本身就是一种功能。

而豆包手机助手则站到了交互界面的另一个极端,它不要你去找服务,而是让服务来找你。甚至要掀了 GUI (图形用户界面)的桌子,有一天那块屏幕可能都不是必需的。

一个是硬件,一个是软件,但它们殊途同归。iPhone Air 削减了物理上的累赘,豆包手机助手剥离了交互上的繁琐。

你会发现,当 AI 公司参与到硬件的设计中,他们对交互设计的思路都和传统硬件厂商有所不同。

OpenAI 也正在和前苹果传奇设计师 Jony Ive 打造 AI 硬件,Sam Altman 就曾透露这块设备希望重新定义交互:不需要一堆 app,而是 AI 作为主界面与操作层。

当然,历史告诉我们这类新技术落地必然面临阵痛:适配、隐私、生态……还有各方利益的博弈。先进技术和广泛应用的「双向奔赴」尚需时日,但也是大势所趋。

OpenAI 联创 Andrej Karpathy 前段时间也表达了自己对交互未来的预判:

人机深度协作的时代,那些用户界面(UI)极其复杂(有大量滑块、开关、菜单)、不支持脚本、并且建立在不透明的、自定义的二进制格式上的产品,注定是死路一条(ngmi)。

未来,AI 在理解和操作人类图形界面(UI/UX)方面会越来越强(比如像 Operator 这样的前沿项目),但我怀疑,那些只想坐等这一未来实现,而不主动与当前技术发展水平「双向奔赴」、做出改变的产品,它们的下场不会太好。

敢于吃螃蟹这件事本身,就已经算是值得瑞思拜了,我们也希望看到更多「异类」出现在科技行业。

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中