性能超越 GPT-4 Turbo！「商汤日日新」大升级，国产大模型超市开张了

在大模型的浪潮席卷而来的前几年，其实也掀起过一阵 AI 创业热潮。其中商汤科技、旷视科技、云从科技、依图科技是这个时期的代表，这四家公司也被称为「中国 AI 四小龙」。

到了 OpenAI 掀起的这股新浪潮中，四小龙中的商汤科技还留在舞台中央。去年 4 月商汤发布「日日新·大模型」系列，是国内最早推出基于千亿参数大语言模型的公司之一。

苟日新，日日新，又日新。

商朝的开国君主汤在澡盆上刻了上述自我告诫的格言，恰似今天 AIGC 领域的变化深度，商汤大模型的更新节奏也可谓「日日新」。

两个月前，商汤推出「日日新 SenseNova 4.0」大模型体系，甚至先 OpenAI 一步首发了全球首个支持不同模态工具调用的 Assistants API。

而今天下午，「又日新」的商汤继续推出了一系列基于「日日新」的生成式 AI 模型及应用，先给大家划重点：

日日新 5.0：常用客观评测上达到或超越了 GPT-4 Turbo
1.8B 的端侧模型：同等尺度性能最优，跨级尺度全面领先
企业级的应用一体机：涉及金融、医疗、政务、代码等领域
尚未上线的文生视频生成平台

拳打 GPT-4 Turbo ，脚踢 DALL·E 3

AI 2.0 时代，生成式 AI 被视为推动生产力进步的重要技术，如果能在知识、推理、执行三层能力上实现突破，将真正带来整个社会生产力的跨越式发展。

上个月，商汤 CEO 徐立在出席 2024 GDC 提出了如上观点，而在今天的发布会上，他再次强调，商汤在尺度定律的指导下，会持续探索大模型能力的 KRE 三层架构（知识-推理-执行），不断突破大模型能力边界。

那么全新升级的日日新 SenseNova 5.0（以下简称：日日新 5.0）又有哪些更新亮点呢？

采用 MoE 架构
基于 10TB tokens 训练，大量合成数据
推理上下文窗口支持 200K
知识、推理、数学、代码全面对标 GPT-4 Turbo

日日新 5.0 本次更新主要聚集增强了知识、数学、推理及代码能力，全面对标 GPT-4 Turbo。

在主流客观评测上，日日新 5.0 达到或超越了去年 OpenAI 在开发者大会上发布的 GPT-4 Turbo 版本，同时也几乎全方位碾压了近期发布的 Llama 3-70B。

光说不练假把式，在发布会现场，商汤也全方位展示了日日新 5.0 在语言、数学推理等方面的实际能力。

同样输入一道 2022 年的高考作文题，对比 GPT-4 Turbo(仅为去年 11 月份的版本，下同)可以看到，日日新 5.0 生成的结果脱离了模版套路化的束缚，多了点人味，一看就是能走进高考阅卷老师心坎的文章。

面对数学问题的拷问，GPT-4 Turbo 开始有些招架不住，不仅计算过程复杂，最终得出的结果也是错误的，而日日新 5.0 这边得出的答案则充满条理性，也完全正确。

行业差异化是大模型竞争中脱颖而出的关键因素。

瞄准本土化应用场景的日日新 5.0，在理解中文特有的文化和语境上是要优于 GPT-4 Turbo 的。GPT-4 Turbo 既然不熟悉中文语境，自然也就无法准确把握「老鹰捉小鸡」这样的本土游戏规则。

多模态能力被业界普遍视为实现 AGI 的关键路径。

从基准测试结果上看，日日新 5.0 也能与 GPT-4V 打得火热，并且互有胜负。在实际的案例演示中，日日新 5.0 支持的秒画生成老象的效果更自然一些，而同样的问题给到友商，甚至还会出现三条腿的谬误。

基于同一 Prompt 生成的人像图，商汤旗下秒画生成的皮肤纹理自然，既没有过度磨皮加滤镜，也顺利完成了「美丽」的指标。考虑到国际上用于训练 AI 模型的亚洲人像数据库相对有限，这样的对比结果也相对正常。

结合多模态和数据分析能力，AI 能够实现更为复杂和高级的任务。

日日新 5.0 上能「攻破」长图的总结描述，中能识别滴滴打车的具体信息，下还能计算中国特有早餐的热量，同样的问题给到 GPT-4 Turbo，也许就是两眼一抹黑。

总说 AI 会重塑工作流，这一次，商汤也特别演示办公小浣熊在这方面的能力。

将 F1 赛车手周冠宇三年的参赛记录输入到系统中，并让它虎指出出参与比赛数量的柱状图，这个任务看似简单，但实际上也牵涉到复杂的识别难题。

在国际比赛中，周冠宇使用其英文名字参赛。传统的大模型在处理这类涉及非英文常规拼写或者特定人物的识别任务时，往往表现不佳。日日新 5.0 升级的办公小浣熊虽然经历了一些波折，但最终还是顺利绘制出来。

端侧大模型，唯快不破

在武侠世界中，「天下武功，唯快不破」强调了速度在实战中的重要性，而在大模型的战役中，这一原则同样适用。

随着大模型技术的快速发展，不同应用场景的需求日益显现，智能手机、电脑、VR 眼镜等终端设备对大模型的使用频率，性能速度，安全稳定等提出了更高要求。

变得更务实的商汤在本次发布会也正式推出了 1.8B 规模的 SenseChat-Lite 版本端侧⼤模型。

在基准测试中，该端侧模型全面超越了 MiniCPM-2B、Phi-2 等同量级的大模型，并且还越级比肩一些 7B、13B 大模型，用徐立的话来说，那就是同等尺度性能最优，跨级尺度全面领先。

研究表明，人眼最快的阅读速度大概就是 20 字/秒，而搭载 1.8B 商汤端侧模型在中端手机上能够实现 18.3 字/秒的速度，而在旗舰手机则最高支持 78.3 字/秒，成为业内最快推理速度。

商汤还推出端云协同解决方案，可以通过智能化判断协同发挥端云各自优势，需要联网搜索或处理复杂场景时分流至云端处理，部分场景端侧处理占比超过 80%，从而显著降低推理成本。

在与「商量」的寥寥几秒对谈中，无论是几秒生成请假报告，还是总结几千字的文档都能快速响应。

端侧扩散模型还能实现业内最快推理速度，端侧 LDM-AI 扩图技术在某主流平台上，推理速度小于 1.5 秒，比友商云端 app 快10倍，支持输出 1200 万像素及以上的高清图片，支持在端上快速进行等比扩图、自由扩图、旋转扩图等图像编辑功能。

现场的演示中，工作人员更是可以做到随拍随扩，将端侧大模型「唯快不破」的能力展现得淋漓尽致。

并且，据徐立介绍，该端侧大模型主要适用于日常对话、常识问答、文案生成、相册管理、图片生成、图片扩展等六大领域，还支持多设备适配，使其能够灵活地应用于各种不同的场景和设备之中。

对于金融、代码、医疗、政务等重点行业边缘侧日益增长的 AI 应用需求，商汤还正式推出了高性价比、开箱即用、数据安全、全国产化的企业级的应用一体机，涉及金融、医疗、政务、代码等四大行业。

以政务智能咨询问答平台为例，它不仅能够理解用户提出的问题，还能提供答案的参考来源，极大地提升政务服务的智能化水平。

徐立指出，自然语言仍然不能替代编程语言，当前的「AI 程序员」无法独立完成复杂的工业级代码项目，而 Copilot 才是更适合的形态。

因此，今天商汤还发布了小浣熊·代码大模型一体机轻量版，单台支持 100 人规模研发团队使用。支持数据不出域，安全有保障，免费部署即可开箱即用。每台售价 35 万元起，为中小企业用户提供了高性价比的选择。

今年以来，Sora 的出现让人们见识到了 AI 视频生成的无限创造潜力，徐立在最后环节也带来了「One more thing」——三段完全由大模型生成的视频。即将上线的文生视频生成平台也在人物可控性、动作可控性以及场景可控性等方阿敏都有着出色的表现。

AI 应用落地需要一个即插即用的大模型超市

在 GPT-4 发布一年后，大模型们依然在不断卷参数刷榜。但今年行业里已经大家真正关心的，其实是怎么将大模型通过 Agent，并接入到无数企业和个人的工作流中。

OpenAI 的 GPT Store 没有如愿成为 AI 行业的 GPT Store，但大量的需求和问题依然摆在那。大模型的强大的能力和落地不同行业场景之间缺乏畅通的桥梁，同时也意味着一个巨大的机遇。

商汤的日日新开放平台，实际上就是一个大模型超市。通过多模态的模型能力提升 API 的调用效率，降低企业和开发者调用和定制各种 AI 功能的门槛。

比起模型的规模参数，商汤更侧重于模型的能力应用。从商汤针对金融、医疗、政务、代码的行业大模型，到目前行业推理速度最快的端侧模型，以及商量、如影、大医、小浣熊家族等 AI 原生应用，都可能看出商汤想要提供接口更丰富，能执行不同行业复杂任务的 AI 工具箱。

知名调研机构 Frost & Sullivan 发布的《2023年中国AI开发平台市场报告》指出，SenseCore 商汤大装置已成为中国 AI 开发平台云计算基础设施供应商的领先者。在硬件基础设施兼容性、产业链合作情况、模型训练优化模块、智能标注技术能力、预训练模型技术水平5个评估项目中，商汤均获得最高分。

我们前段时间报道过金山办公的 WPS AI 企业版，其中合作的大模型就有商汤。金山表示商汤在数据分析上比较出色，因此 WPS AI 就调用它处需要理科思维的场景。

APPSO 把金山这种不生产大模型，而是坚定做大模型应用的公司，称为 AI 的应用主义者。而商汤在其中扮演的角色，与其说是大模型的提供商，不如说是帮助各行各业大规模应用落地 AI 应用的百货超市。