为您查询到 篇文章
刚刚,SpaceX 正式收购 xAI。
这则消息由马斯克本人在 SpaceX 官网发布,配了一封长篇公开信。#马斯克回应SpaceX收购xAI#
信里的核心思路很清晰:把 AI 数据中心搬到太空去。#马斯克宣布SpaceX收购xAI# ……
[展开]最懂 iPhone 相机的人,回到苹果了
最懂 iPhone 相机的人,回到苹果了。
据 Sebastiaan de With 本人披露,他将加入苹果 Human Interface Design (HID) Team,这是苹果的核心设计团队。
Sebastiaan 是谁?你可能会对这个名字感到陌生,但你熟悉 iPhone 摄影,那大概率听过甚至用过他开发的应用——H……全文: http://m.weibo.cn/1642720480/5261979767540222 ……
[展开]在 AI 领域,我们听惯了万亿参数、Context Window(上下文窗口)这些指标,但盛大集团创始人陈天桥提出了一个全新的工程度量衡:在300步复杂推理后,依然维持99%的正确率 。
为什么要死磕“300步”?这背后是残酷的概率学。陈天桥将推理的最小单位定义为“标准原子步”(SIU),即每一步只执行单一逻辑,且可被工具检验 。现状是,即便大模型单步准确率达到惊人的 98%,在经过 300 步的链式反应后,端到端的成功率也会指数级衰减至 0.23% 。这意味着,依靠当前 Transformer 架构的“概率预测”来解决长链路科学问题(如新药研发、工程设计),在数学上是死路一条。
陈天桥的解决方案极具工程思维:将推理过程解耦为“逻辑生成层”与“检验层” 。
生成层(想): 负责将大问题递归拆解为原子操作;
检验层(查): 对每一个原子步进行外部验证(仿真、工具、数据)。
这种架构要求 AI 必须具备“可累积的长期记忆”和“自我纠错”能力 。MiroMind 的 BrowseComp 实践证明了这条路径的可行性:仅用 235B 参数的小模型,通过反复的 Agent/环境交互和纠错,击败了依赖一次性生成的更大模型 。
这标志着 AGI 的研发重点正在发生转移:从训练更会“蒙”的大模型,转向构建一个高可信、可审计的通用推理引擎 。对于开发者而言,未来的核心竞争力或许不在于 Prompt Engineering,而在于构建能够把每一步推理“钉死”的工具链验证系统。
以下为陈天桥博文全文:
言语道断,因果自现——我心中的AGI是什么
过去这一两年,我们亲眼看着大模型的语言能力以肉眼可见的速度跃迁:写作、总结、对话、问答、解题,越来越“像人”;HLE 之类的评测分数一再刷新纪录,连奥数级别的题目也能被系统性攻克。于是一个看上去顺理成章的结论开始流行:“所谓 AGI、大一统的通用智能,大概也就差不多了。”但在我看来,这是一场美丽的误会。
为了把这件事讲清楚,我借用一个比喻:今天主流的大模型,更像是“文科大模型”。它以语言生成与文本一致性为中心,把知识组织成“像真的叙述”和“像对的答案”。它的价值在于“模拟”:它能理解我们的委婉与修辞,能生成优雅的文字、逼真的对话、动人的故事;它会在教育、沟通、内容生产上变成新的基础设施,像电、像水,润物无声。但是即便它能解奥数、HLE 也能拿高分,这些胜利也大多发生在封闭系统里:题目定义明确、规则固定、对错可判、反馈即时。
但我一直坚信,人类真正需要 AI 去对抗的,是衰老、疾病、能源、材料、气候这些问题;这些战场不在考试题的封闭世界里,没有标准答案等你生成,只有现象、噪声、偏差、缺失变量与缓慢反馈;正确不是“写出来”的,而是被外部世界“确认出来”的。封闭世界的高分,证明了推理工程的成熟,但并不代表已经拥有了稳定的知识生产机制;高水平解题固然是走向发现的必要基础,却远非充分条件,因为真正决定未来的,不是封闭的叙述,而是那条冰冷而精确的因果红线;它关心的不是“说得对不对劲”,而是“这个假设能不能被现实否决或确认”;它的终极产物不是新作品,而是新知识——新的定理、新的材料、新的药物、新的工艺、新的工程结构。我把这种范式称为“理科大模型”。它的价值在于“发现”。
需要澄清一点:我说的“文科/理科”,不是两种模型的物种差异,而是两种默认动作的差异:文科大模型倾向给出一个“看起来不错的最终答案”,理科大模型倾向先给出一组可证伪的假设,并同时给出把这些假设变成证据的路径;文科模型在不确定处更容易把答案“凑圆”,理科模型在不确定处更像本能地停一下,然后去查证、去拆解,把问题拆成可验证的小问题;理科模型把因果当作第一公民,回答“条件改变后会发生什么”;理科模型还必须有可累积的长期记忆,把每一次验证得到的结论以可追溯的方式写回去。总之,理科模型更像一个握着手术刀的外科医生:在无数方案里,识别哪一刀真正触及因果红线;它知道,一旦切下去,现实会给出最诚实、也最残酷的反馈,形成真正的因果闭环——这种对“真实代价”的敬畏,正是两种范式之间最本质的鸿沟。
所以,真正决定 AGI 应该是什么,取决于我们的价值取向:我们究竟更在意一个能理解所有修辞,还能取代人类工作的“灵魂伴侣”,还是更迫切地需要一个能帮我们撕开迷雾、照亮未知,创造价值的“因果明镜”?我认为是后者。所以,实现 AGI 不是为了再造一个更会聊天的会生成的系统,而是为了打造一种“会发现”的智能。
让我们带着这样的价值观去审视一下现有的 AGI 定义的主要流派。一种是行为主义范式,源于图灵测试,认为 AGI 的标准是“机器表现出的行为与人类无法区分”。这是目前大众最直观的评判标准。但如果一个 AI 只是在模仿人类说话,它永远无法告诉我们那些人类还没发现的真理。第二种是功能主义范式。以 OpenAI 为代表,定义 AGI 为“在大多数具有经济价值的工作中超越人类的自适应系统”,侧重于对人类劳动力的替代能力。但人类文明的每一次飞跃,都不是靠把旧工作做得更快,而是靠发现前所未有的新规律。第三种是能力分级范式。以 DeepMind 为代表,将 AGI 分为从 “Emerging” 到 “Superhuman” 的五个层级,核心指标是在广泛且未见过的任务中的“泛化能力”与“表现分值”。可现实世界不是考场,没有标准答案,真正的智慧是要在没有考卷的地方,自己找到那条正确的路。当然还有一些其他的范式都或多或少存在上述问题。
那么我心目中 AGI 目标究竟要做什么?用一句话概括:它是一个高可信、可验证、可纠错的通用推理引擎。在工程上能够做到三百步以上的复杂推理后,依然维持接近 99% 级别的整体正确率,并通过形式化和工具链把每一步推理“钉死”为可检查的证据,最终对任意复杂问题给出闭环解决方案。
为什么我们死磕“300 步”?我们必须先定义推理的最小单位——标准原子步(SIU, Standard Inference Unit),作为可审计的基本推理单元。每一步只执行单一逻辑操作,依赖最小必要输入,其结果可以通过工具或规则直接检验。按照这个标准,现在的大模型单步推理准确率最高能冲到 98%,哪怕每一步都能做到这个最高水平,300 步后的端对端成功率也只有 0.23%,已经接近归零。这意味着在 300 步之后,概率和运气基本失效,系统必须依赖可检验的推理与外部反馈闭环,而不是靠“看起来合理”的续写去蒙混过关。所以我认为 300 步是独立解决复杂现实问题的“跨度起点”。
为什么 99% 必须是硬杠?因为发现式系统不是用来“聊天”,而是要进入现实成本区间:实验、工程、医疗、决策。低一个点的可靠性,就意味着高频的错误下注;而现实世界的错误,不是“答错题”,而是浪费实验窗口、烧掉工程预算、甚至造成不可逆的损耗。99% 不是面子指标,而是“可质押、可签字”的门槛。
所以,我心目中的 AGI,是能在 300 步的逻辑长征中,靠自我纠错熬过“概率死亡”,最终抵达地图之外的起点。从这里开始,AGI 就可以在科学、工程、决策规划等任意领域里,作为一个可审计、可验证的通用问题求解器存在。
当然,我并不认为这是一条“喊口号就能到达”的路线。把目标钉在“300 步仍保持 99% 可靠性”,本质上是在主动面对三个工程硬点:长链误差累积、开放世界验证缺口、以及组合爆炸下的预算约束。正因如此,我们在工程上必须进行解剖,将推理过程分为两层:逻辑生成层与检验层。生成层负责“想”:将大问题递归地拆解,直到细化为原子级操作,我们还要做检验层负责“查”:对每一个原子步通过工具、仿真或外部数据逐一验证。一旦某一步不过关,系统就在局部进行回退和重生成,而不是推翻整条推理链。
MiroMind 已经在这条路走出了第一步。以 BrowseComp 为例,MiroMind 仅用 235B 参数模型就给出了 SOTA 的成绩,它的意义不在于“分数本身”,而在于证明了一个工程事实:我们正在把推理从“单次生成”推进到“时间序列上的反复求证”。更具体地说,我们不是依赖一次性长链思考去赌对答案,而是训练模型在更深、更频繁的 agent/环境交互中不断获取外部反馈并纠错,让推理过程逐步变成可审计的证据链。对我们而言,这就是“通用求解器”的第一块地基,然后在 99% 可靠性前提下逐步推到 300 步以上的跨度。这个过程沉默、缓慢、严谨、甚至有点残酷,它抛弃了人类语言的精妙模仿,却在枯燥、严苛、却能被现实反复复现的因果闭环中,缓慢破土而出,即使有耐心资本的加持和理想主义的坚守,这也会是一个非常痛苦的过程。
佛经里有个词,叫“大圆镜智”。说的是一个人的心若能修到像一面大圆镜,就能如实照见万物因果,不被尘埃遮蔽,不被偏见扭曲,这是智慧的最高境界。我对这个智慧一直很向往,甚至创办的科普视频号也取名叫做大圆镜。而我心中的 AGI 就是一个无限接近“大圆镜智”的智能系统,不迷恋漂亮的语言,而是追问事实的真相是什么;不急着给出答案,而是去求证背后的因果是什么。在一个被语言和叙事塞满的 AI 时代,我们需要一面只对“因果和真相”负责的镜子。
[展开]马斯克真没吹牛!世界模型 Genie 3 一键打造 GTA6 不是梦
AI 热点一个接一个,大家光顾着看热闹,真正的王炸反而容易被错过。上周,Google DeepMind 推出了打磨已久的新项目:Project Genie。这不单是一个好玩的 AI 工具,更是 Google 通往通用人工智能(AGI)的重要一步:
一个真正的「世界模型」实……全文: http://m.weibo.cn/1642720480/5261964688757334 ……
[展开]15万个AI建了个朋友圈吐槽人类,100万人围观后傻眼了
一个叫 Moltbook 的网站突然爆火。它的界面长得跟美国版贴吧 Reddit 差不多,有发帖、有评论、有点赞。
但诡异的是:这个社交网络的用户,没一个是人类。这里是 AI Agent(截至发稿已破 15 万)的狂欢地。
根据最新的数据,100 万人类已经被明确……全文: http://m.weibo.cn/1642720480/5261958376594132 ……
[展开]在大模型领域,我们已经度过了那个「惊叹于它能说话」的草创期。现在的开发者和企业,更关心的是一个很现实、甚至有点「市侩」的问题:这个 API 稳不稳?贵不贵?能不能支撑几十万次的日活?
1 月 29 日,清程极智在北京交出了一份关于「模型流通」的答卷:AI Ping。
这不是又一个大模型,而是一个试图理顺大模型 API 乱象的「路由器」。
清华大学教授郑纬民在发布会上点出了一个关键趋势:AI 基础设施(AI Infra)的任务变了。
如果说过去几年大家都在卷「如何生产智能」(训练和推理),那么现在,行业正进入「智能流通」阶段。简单来说,大模型能力现在就像电和水,如何高效、稳定地输送到业务端,成了新的瓶颈。
清程极智 CEO 汤雄超认为,AI 应用的演进逻辑很清晰:
八卦炉(训练系统): 解决怎么训得快。
赤兔(推理引擎): 解决怎么跑得省。
AI Ping(路由平台): 解决在复杂的 API 丛林里,怎么选、怎么连、怎么换。
现在的开发者很痛苦:市面上几十家 API,同一个模型在不同厂商那里的延迟、稳定性、性价比天差地别。选型像抽奖,切换像迁坟。
AI Ping 的核心逻辑就是通过「评测—接入—路由—优化」的闭环,把这种不确定性抹平:
全天候体检: 持续监测 30 多家大模型 API 的延迟、吞吐和稳定性。
智能路由: 像导航软件避开拥堵路段一样,AI Ping 可以根据实时性能,在多模型、多厂商之间进行动态调度。
一站式接入: 屏蔽复杂的接口协议,让开发者不再为调通不同家的 API这种苦活累活浪费时间。
阿里云政企行业咨询总监程晶给了一个很形象的比喻:AI Ping 就像模型服务的「智慧红绿灯」。它不仅告诉你哪条路通,还能帮你精准匹配资源,把试错成本降到最低。
发布会不仅有产品,还有一份硬核的《2025 大模型 API 服务行业分析报告》。
基于 AI Ping 在 2025 年第四季度的真实调用数据,报告撕开了行业的现状:API 的竞争已经从单纯的价格战转向了「交付质量战」。
核心洞察: 在同一模型条件下,引入智能路由机制,可以在保证不掉线的前提下,显著压低成本并提升响应速度。
这对于那些正在做智能体(Agent)或大规模交互应用的初创公司来说,无异于一颗定心丸。面壁智能、知潜、HSRIM 等应用方在现场的分享也印证了这一点:当应用进入规模化阶段,稳定一致的调用体验,比模型智商高那么一点点,要重要得多。
从智谱、硅基流动到蓝耘、ChatExcel,这次发布会几乎聚齐了国内大模型生态的半壁江山。大家达成了一个共识:大模型应用正在从精耕细作转向规模化运营。
当 API 调用不再是一门玄学,大模型才真正具备了改造现实产业的底气。清程极智的 AI Ping,正是想通过这一套智能路由系统,让 AI 的流动像扫码支付一样丝滑。
[展开]《激情与速度 11》定档 2028 年
据新浪电影报道,《速度与激情 11》定档 2028 年 3 月 17 日北美上映,片名定为「Fast Forever」。
主演范·迪塞尔发 Ins 庆祝该片(在他公开请求环球后终于)定档,他分享与已故的该片演员保罗·沃克合影,表示:「没人说一路上会很轻松,但这是我们的路,这条路定义了……全文: http://m.weibo.cn/1642720480/5261949559381209 ……
[展开]解密 iPhone 小折叠,这只是苹果折叠产品的开始
多年以来,苹果一直在扮演「迟到的革命者」的角色。
毕竟当折叠屏领域已经形成了「两强争霸」格局、三折叠手机都开始出现迭代和差异化产品的时候,苹果的 iPhone Fold 才姗姗来迟,总算将要交出第一份折叠屏答卷。
都说「先学走路再学跑」,但苹果好……全文: http://m.weibo.cn/1642720480/5261942467071791 ……
[展开]喜茶将在广州沙面开设 DP 店
最近,日前,喜茶宣布将在广州沙面开设 DP 门店,并同步开启「抢先叹茶」活动。
据悉,门店将会推出多款限定产品:「老广鲜腐竹豆浆冰淇淋」「老广鲜腐竹豆浆」「咸酪英红冰淇淋」。同时门店还将推出限定冰箱贴和帆布袋。
门店将于 2 月 6 日正式开业。
* DP 店(Heyte……全文: http://m.weibo.cn/1642720480/5261938994446435 ……
[展开]小米类 CallKit 能力上线
日前,小米 HyperOS 在官方的开发文档中,正式上线了「VoIP Service Kit」(通话服务)接口介绍。
据悉,VoIP Service Kit(通话服务)是小米提供给 IM 类应用的通话管理服务。该类应用可通过集成 VoIP Service Kit,轻松实现来电一键接听、横幅通知、静音与取消静音等功能……全文: http://m.weibo.cn/1642720480/5261935467038311 ……
[展开]苹果新电脑,即将到来
据彭博社记者 Mark Gurman 消息,苹果目前正计划在 macOS 26.3 发布时,同步推出 M5 Pro/Max 版本的 MacBook Pro。
Gurman 指出,目前在售的 M4 Pro/Max MacBook Pro 已有多款型号售罄,并且部分型号发货时间已经延迟至 2-3 月。
据报道,M5 Pro/Max 的 MacBook Pro 将保持现……全文: http://m.weibo.cn/1642720480/5261932946522689 ……
[展开]AI 自己的「朋友圈」遭百万网友围观
近期,一个叫 Moltbook 的网站突然爆火。
值得一提的是,该网站虽然与论坛平台 Reddit 差不多(有发帖、有评论、有点赞),但诡异的是:这个社交网络的用户,没一个是人类——这里是 AI Agent(数量已破 150 万)的狂欢地。
根据最新的数据,100 万人类已经被明……全文: http://m.weibo.cn/1642720480/5261896715338291 ……
[展开]何小鹏回应机器人「原地摔」
日前,小鹏人形机器人 Iron 在深圳亮相展示时,突然整机摔倒在地。
对于上述情况,小鹏汽车董事长何小鹏和小鹏汽车副总裁「托马斯电火车」均进行了回应。
托马斯称,机器人 Iron 在深圳湾万象城给深圳市民尤其是孩子们又来了一次真实行走,让大家真实感受未来。其表示,……全文: http://m.weibo.cn/1642720480/5261892936273429 ……
[展开]雷军直播揭秘小米汽车测试过程
昨晚,小米创办人雷军进行直播,并与观众分享了小米汽车实验室的部分信息。
雷军指出,目前,小米在北京、上海、南京、武汉 4 地已启用了自建试验室 100 多个;同时,小米汽车还在吐鲁番(高温)、黑河(高寒)、昆仑山(高原)、海南(高温/高湿), 4 大极端环境开展……全文: http://m.weibo.cn/1642720480/5261889899856433 ……
[展开]奥迪终于承认:A4 改名 A5 是个错误
#奥迪承认A4改名A5是错误# 奥迪全球 CEO Gernot Dollner 最近在接受媒体采访时承认,之前决定将 A4 燃油版更名为 A5,是一个「错误」。🙅♂️
大家应该还有印象,奥迪在 2023 年定下了一个新的命名策略:为了给电动车让路,把偶数编号(如 A4、A6)留给 e-tro……全文: http://m.weibo.cn/1642720480/5261883921924656 ……
[展开]今天,阶跃星辰发布新一代开源 Agent 基座模型 Step 3.5 Flash。该模型面向实时 Agent 工作流场景打造,兼顾推理速度、智能水平与使用成本,在单请求代码类任务上,Step 3.5 Flash 最高推理速度可达每秒 350 个 token。Step 3.5 Flash 提供了一个“更快更强更稳”的 Agent 底层模型选项,希望能够成为受大家喜爱的“Agent 搭子”。
Step 3.5 Flash 采用稀疏MoE架构,每个 token 仅激活约 110 亿个参数(总计 1960 亿参数),在保证模型能力的同时显著提升推理效率,为 Agent 类应用提供更高效、可负担的底层模型选择。包括华为昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥在内的多家芯片厂商,已率先完成对 Step 3.5 Flash 的适配,通过底层联合创新提升模型适配性和算力效率。模型与算力的协同发展,有效降低推理成本,降低企业和开发者在应用大模型时的综合门槛,加快大模型在实际应用场景中的落地。
公开信息显示,阶跃星辰于 2025 年 7 月联合近 10 家芯片及基础设施厂商发起「模芯生态创新联盟」,旨在打通芯片、模型与平台之间的技术壁垒,通过联合优化提升算力利用效率,加速大模型在各行业场景中的应用落地。业内认为,随着推理模型成为主流,模型与算力的深度协同将成为推动大模型规模化应用的重要路径。
[展开]灵光 App 上新:上传图片即可生成应用,API 能力全面增强
2 月 2 日,蚂蚁通用 AI 助手「灵光」宣布核心功能「闪应用」全面升级。
新增 「上传图片生应用」 和 「桌面小组件」 两大能力,并一次性接入 近 20 项 API 工具(含音效合成、LLM 调用、日历、多模态理解、文本朗读、持久化存储、陀螺仪、震……全文: http://m.weibo.cn/1642720480/5261835013980930 ……
[展开]图集|华为FreeClip2 × 周大福 ……
[展开]观点 💡 扎克伯格:AI 是社媒的未来
据 The Verge 消息,Meta CEO 扎克伯格日前在财报电话会上表示,人工智能(AI)将会是社交媒体的未来。
扎克伯格指出,AI 将会使得社交媒体的内容更加沉浸。「社媒的最初形态是文字,然后在手机具备摄像功能后转向照片,接着再移动数据网络足够快时进入视频时代……全文: http://m.weibo.cn/1642720480/5261831132416643 ……
[展开]不止大折!苹果小折叠也来了,方形无折痕
据彭博社记者 Mark Gurman 最新发布消息,苹果内部正在考虑打造一款「方形」的翻盖式折叠屏产品。#苹果方形折叠屏#
按照他的说法,这会是一台方形、翻盖式的 iPhone 折叠屏,形态上非常接近三星 Z Flip 这类竖向折叠机型。但该产品「是否会上市仍不确定」,……全文: http://m.weibo.cn/1642720480/5261826788163815 ……
[展开]