国思软件 - 3B激活参数！商汤绝影Sage登顶PinchBench，端侧第一

　　新智元报道

　　编辑：YHluck

　　一个 3B 激活参数的端侧模型，在全球 Agent 权威评测中，以 94% 任务完成率，超越了 Claude、GPT-5.4、Gemini 等国际主流云侧和端侧大模型。商汤绝影 Sage 来了，它不是「更聪明的语音助手「，而是第一个真正能在车里「办成复杂事「的智能体基座。

　　有人可能不信。

　　一个部署在车端的小模型，凭什么在 Agent 评测上赢过 Claude、GPT-5.4？

　　数字摆在这里——在公开 Agent 评测基准 PinchBench 上，商汤绝影 Sage 端侧大模型最佳任务完成率：94%。

　　同场较量的对手？Claude-Opus-4.6（93.3%）、GPT-5.4（90.5%）、Google-Gemini-3（87.0%）、Qwen3.5-27B（90.0%）……全部落后。

　　这不是一场「以大打大」的胜利。

　　Sage 的激活参数只有 3B，总参数量 32B（MoE 架构）。而小米 MiMo-v2-Pro 的激活参数是 42B、总参数规模超 1T——Sage 所需激活算力仅为其1/14，显存占用约为其1/31，但在 PinchBench 上的任务完成率仍高出 6.6 个百分点。

　　1/14 的算力，多出 6.6 个百分点。

　　这是什么概念？

　　这意味着一件事被彻底证明了：「只有大模型才能做好 Agent 任务」，这个判断，错了。

　　从「听懂指令「到「说到做到」

　　座舱缺的从来不是语音

　　先说说这个问题的背景。

　　今天的智能座舱，卡在哪儿？

　　不是没有 AI，是 AI「太浅了」。

　　用户说「帮我订今晚回北京的高铁，顺便把车内温度调低两度」——现有的语音助手，大概率会拆解成两件事分开问你确认，甚至直接说「我不太明白您的意思」。

　　这叫「能听懂指令」，但不叫「能办成一件复杂的事」。

　　真正的 Agent 能力，需要模型跨越多个步骤、多个工具、多轮推理，最终完成任务闭环。这种能力，过去只存在于云端大模型里。

　　原因很直接：车端芯片算力有限，大参数模型跑不动；小模型又没有足够的推理深度。

　　智能座舱因此陷入两难：

　　依赖云端：有延迟、有成本、有断网风险；坚守端侧：有响应速度，但没有真正的智能体能力。

　　Sage 的发布，第一次打破了这个僵局。

　　效果先看

　　Sage 在车里能「干」什么

　　空谈技术路线，不如先看能力。

　　场景一：复合指令一次解析，多系统自动联动

　　用户说：「今晚出门晚，车内预热一下，帮我把导航设回家，音乐切换到轻松一点的。」

　　Sage 不需要用户一句一句确认。

　　它一次性解析复合指令，自动联动空调、导航、音乐三个系统，完成任务闭环——整个流程，首字响应约 0.5 秒，用户几乎感觉不到「等待」。

　　场景二：主动感知，不等唤醒

　　后排坐着孩子，传感器检测到，Sage 主动触发儿童模式：锁定车窗控制权、切换适龄内容、调整音量上限。

　　没有人唤醒它，它已经做了。

　　场景三：实时路况判断，主动提出方案

　　进入拥堵路段，结合实时路况感知，Sage 主动问：「当前路段预计延误 23 分钟，是否切换到备选路线？」

　　不只是回答，而是主动发起。

　　这三个场景，指向同一个能力转变：Sage 不再是「被动唤醒、单次响应」的语音助手，而是一个真正懂场景、会主动思考的出行伙伴。

　　在 OrinX 平台部署下，Sage 可实现首字响应（TTFT）约 0.5 秒、单 Token 推理延迟（TPOT）低至 0.03 秒、生成吞吐达到 80tk/s，平均任务时长优于主流 API 模型，保证座舱体验的稳定性和实时感。

　　两项黑科技

　　一个让它「学得快」

　　一个让它「做事不出错」

　　Sage 在 PinchBench 跑赢一众大模型的背后，真正的功臣是商汤绝影自研的两项后训练技术：SCOUT和ERL。

　　SCOUT：省 60% 算力，让车载AI快速「学会」复杂出行任务

　　全称：Sub-Scale Collaboration on Unseen Tasks（分级协同学习框架）。

　　它解决的是一个工程现实问题——让大模型学习复杂任务，太贵了。

　　出行场景涉及空间规划、多设备联动、多步决策，直接让大模型在真实任务中自己反复试错，既慢又烧算力。

　　SCOUT 的思路是「探路与吸收解耦」：先派一个轻量小模型快速跑一遍，把走得通的路径筛出来，再把这些高价值经验喂给大模型学习。

　　用类比来说，就是「小模型先探路、踩雷、找通道，大模型再吸收精华、直接上手」。

　　结果是：在复杂任务能力注入过程中，GPU 小时消耗节省约 60%，同时快速掌握更多真实用车场景技能。

　　技术论文已上传 arXiv：https://arxiv.org/abs/2601.21754

　　ERL：让模型「边想边纠错」，任务完成率提升 20%

　　全称：Erasable Reinforcement Learning（可擦除强化学习）。

　　这项技术已被机器学习顶级会议 ICLR 2026 收录。

　　它解决的核心问题是：复杂任务链路里，一步出错，全盘崩。

　　用户说一句话，模型可能需要 10 步推理和执行。哪怕第 7 步偏了一点，前面 6 步的努力就白费，整个任务流程失效。

　　ERL 让模型能够自动识别推理过程中的错误步骤，对错误内容进行擦除并重新生成，从源头阻断偏差扩散——就像给推理过程装上了「实时橡皮擦」。

　　这项技术让 Sage 在多跳复杂推理基准上较此前 SOTA 取得显著提升，装车后复杂任务完成率提升 20%。

　　技术论文已上传 arXiv：https://arxiv.org/abs/2510.00861

　　SCOUT 负责学习效率，ERL 负责执行稳定性，两项技术前后协同，共同推动 Sage 从语言大模型演进为能独立完成复杂任务的智能体。

　　能力天花板

　　Sage 和同级端侧旗舰的差距有多大

　　PinchBench 上的 94% 是综合结果，具体能力维度上，Sage 和行业参照点的差距更直观。

　　对比对象：Google-Gemma4——本月最新发布的同量级端侧旗舰。

　　跨学科专业知识（MMLUPro）：Sage 76 分，领先同级端侧模型约 10%。端侧模型，已具备云端级通用知识密度。

　　研究生级专业推理（GPQA Diamond）：Sage 77 分，提升 33%。这是考察深度推理的维度，也是 Agent 能否应对复杂决策的关键。

　　座舱语义与视觉理解（Human Semantic Understanding）：Sage 91 分，提升 32%。依托原生车载数据建立的差异化优势，直接影响真实座舱体验。

　　工具调用与任务闭环（τ2-bench）：Sage 80 分，较 Gemma4 提升 38%，接近翻倍领先。

　　最后这个数字值得单独说一下。

　　τ2-bench，专门评估模型调用工具、走完多步任务的实战能力——也就是「会聊天」和「会办事」之间的分水岭。

　　接近翻倍的领先，直接印证了 Sage 作为端侧智能体基座在真实任务执行上的核心优势。

　　市场转折点

　　汽车AI的上半场，靠指令

　　下半场，靠 Agent

　　为什么「端侧 Agent 基座」这件事，现在重要？

　　先看一组行业现实。

　　当前搭载了「智能语音」的汽车，普遍存在同一个用户体验瓶颈：语音助手能听，但不能想；能应答，但不能执行；能单步，但不能多步。

　　这不是某一家车企的问题，是整个行业在 AI 算力、模型能力和车端部署之间的结构性矛盾。

　　依赖云端方案的代价在放大：每次对话都要消耗 Token，单任务 token 消耗就可达数十万量级；网络抖动就会影响体验；数据隐私也是潜在风险。

　　端侧部署才是量产落地的唯一可行路径——但端侧模型的能力天花板，一直是整个行业的卡脖子问题。

　　Sage 的出现，正好踩在这个时间窗口。

　　Sage 可接入 OpenClaw、Hermes 等主流 Agent 框架，不只是一个座舱大模型，而是一个为更多端侧智能体落地提供核心支撑的基座——可覆盖出行、家庭等全场景智能体部署。

　　北京车展期间，商汤绝影将正式推出搭载 Sage 端侧多模态智能体基座大模型的SageBox，为汽车迈入超级智能体时代打下技术底座。

　　这意味着，车企在引入端侧 Agent 能力时，有了一套经过全球评测验证的量产方案。

　　商汤绝影

　　从「懂AI」到「懂车 AI」的技术积累

　　Sage 不是一款从零起步的产品。

　　它背后是商汤绝影多年在汽车 AI 领域的技术沉淀——从智能驾驶感知到座舱语义理解，再到今天的端侧智能体基座，每一步都在向「真正懂车、懂人、懂场景」靠近。

　　Sage 之所以能在 Human Semantic Understanding（座舱语义与视觉理解）上拿到 91 分、提升 32%，正是原生车载数据训练的结果。

　　通用大模型的训练数据里，没有「车内乘员状态感知」，没有「驾驶场景多步决策」，没有「空调+导航+影音联动」这种出行场景特有的任务链路。

　　Sage 有。

　　这种原生优势，不是靠刷榜刷出来的，是靠在真实出行场景里长期训练出来的。

　　智能座舱

　　正在迎来它真正的「奇点时刻」

　　回头看汽车 AI 的发展历程。

　　第一阶段：语音识别，能听懂人话。

　　第二阶段：语音助手，能应答简单指令。

　　第三阶段：大模型接入，能对话、能聊天。

　　现在，第四阶段来了——

　　能独立规划、能多步执行、能主动感知、能在车端实时完成复杂任务的端侧智能体。

　　Sage 代表的技术方向，不只是「更聪明的语音助手」，而是从根本上改变人与汽车的协作方式。

　　用户不再需要把一件事拆成十个指令说给汽车听，汽车开始真正理解「你想要什么」，然后想办法帮你做到。

　　3B 激活参数赢过了一众云端旗舰，这个结果告诉行业：智能座舱的上限，不在云端，在端侧原生技术路线上还有更多可能。

　　SageBox 即将亮相北京车展。

　　下一代汽车 AI 的样子，已经在那里了。

3B激活参数！商汤绝影Sage登顶PinchBench，端侧第一

我们的产品

相关链接

关于我们

联系我们