
新智元报道
编辑:YHluck
一个 3B 激活参数的端侧模型,在全球 Agent 权威评测中,以 94% 任务完成率,超越了 Claude、GPT-5.4、Gemini 等国际主流云侧和端侧大模型。商汤绝影 Sage 来了,它不是「更聪明的语音助手「,而是第一个真正能在车里「办成复杂事「的智能体基座。
有人可能不信。
一个部署在车端的小模型,凭什么在 Agent 评测上赢过 Claude、GPT-5.4?
数字摆在这里——在公开 Agent 评测基准 PinchBench 上,商汤绝影 Sage 端侧大模型最佳任务完成率:94%。
同场较量的对手?Claude-Opus-4.6(93.3%)、GPT-5.4(90.5%)、Google-Gemini-3(87.0%)、Qwen3.5-27B(90.0%)……全部落后。


这不是一场「以大打大」的胜利。
Sage 的激活参数只有 3B,总参数量 32B(MoE 架构)。而小米 MiMo-v2-Pro 的激活参数是 42B、总参数规模超 1T——Sage 所需激活算力仅为其1/14,显存占用约为其1/31,但在 PinchBench 上的任务完成率仍高出 6.6 个百分点。

1/14 的算力,多出 6.6 个百分点。
这是什么概念?
这意味着一件事被彻底证明了:「只有大模型才能做好 Agent 任务」,这个判断,错了。
从「听懂指令「到「说到做到」
座舱缺的从来不是语音
先说说这个问题的背景。
今天的智能座舱,卡在哪儿?
不是没有 AI,是 AI「太浅了」。
用户说「帮我订今晚回北京的高铁,顺便把车内温度调低两度」——现有的语音助手,大概率会拆解成两件事分开问你确认,甚至直接说「我不太明白您的意思」。
这叫「能听懂指令」,但不叫「能办成一件复杂的事」。
真正的 Agent 能力,需要模型跨越多个步骤、多个工具、多轮推理,最终完成任务闭环。这种能力,过去只存在于云端大模型里。
原因很直接:车端芯片算力有限,大参数模型跑不动;小模型又没有足够的推理深度。
智能座舱因此陷入两难:
依赖云端:有延迟、有成本、有断网风险; 坚守端侧:有响应速度,但没有真正的智能体能力。
Sage 的发布,第一次打破了这个僵局。
效果先看
Sage 在车里能「干」什么
空谈技术路线,不如先看能力。
场景一:复合指令一次解析,多系统自动联动
用户说:「今晚出门晚,车内预热一下,帮我把导航设回家,音乐切换到轻松一点的。」
Sage 不需要用户一句一句确认。
它一次性解析复合指令,自动联动空调、导航、音乐三个系统,完成任务闭环——整个流程,首字响应约 0.5 秒,用户几乎感觉不到「等待」。
场景二:主动感知,不等唤醒
后排坐着孩子,传感器检测到,Sage 主动触发儿童模式:锁定车窗控制权、切换适龄内容、调整音量上限。
没有人唤醒它,它已经做了。
场景三:实时路况判断,主动提出方案
进入拥堵路段,结合实时路况感知,Sage 主动问:「当前路段预计延误 23 分钟,是否切换到备选路线?」
不只是回答,而是主动发起。
这三个场景,指向同一个能力转变:Sage 不再是「被动唤醒、单次响应」的语音助手,而是一个真正懂场景、会主动思考的出行伙伴。
在 OrinX 平台部署下,Sage 可实现首字响应(TTFT)约 0.5 秒、单 Token 推理延迟(TPOT)低至 0.03 秒、生成吞吐达到 80tk/s,平均任务时长优于主流 API 模型,保证座舱体验的稳定性和实时感。
两项黑科技
一个让它「学得快」
一个让它「做事不出错」
Sage 在 PinchBench 跑赢一众大模型的背后,真正的功臣是商汤绝影自研的两项后训练技术:SCOUT和ERL。
SCOUT:省 60% 算力,让车载AI快速「学会」复杂出行任务
全称:Sub-Scale Collaboration on Unseen Tasks(分级协同学习框架)。
它解决的是一个工程现实问题——让大模型学习复杂任务,太贵了。
出行场景涉及空间规划、多设备联动、多步决策,直接让大模型在真实任务中自己反复试错,既慢又烧算力。
SCOUT 的思路是「探路与吸收解耦」:先派一个轻量小模型快速跑一遍,把走得通的路径筛出来,再把这些高价值经验喂给大模型学习。
用类比来说,就是「小模型先探路、踩雷、找通道,大模型再吸收精华、直接上手」。
结果是:在复杂任务能力注入过程中,GPU 小时消耗节省约 60%,同时快速掌握更多真实用车场景技能。
技术论文已上传 arXiv:https://arxiv.org/abs/2601.21754
ERL:让模型「边想边纠错」,任务完成率提升 20%
全称:Erasable Reinforcement Learning(可擦除强化学习)。
这项技术已被机器学习顶级会议 ICLR 2026 收录。
它解决的核心问题是:复杂任务链路里,一步出错,全盘崩。
用户说一句话,模型可能需要 10 步推理和执行。哪怕第 7 步偏了一点,前面 6 步的努力就白费,整个任务流程失效。
ERL 让模型能够自动识别推理过程中的错误步骤,对错误内容进行擦除并重新生成,从源头阻断偏差扩散——就像给推理过程装上了「实时橡皮擦」。
这项技术让 Sage 在多跳复杂推理基准上较此前 SOTA 取得显著提升,装车后复杂任务完成率提升 20%。
技术论文已上传 arXiv:https://arxiv.org/abs/2510.00861
SCOUT 负责学习效率,ERL 负责执行稳定性,两项技术前后协同,共同推动 Sage 从语言大模型演进为能独立完成复杂任务的智能体。
能力天花板
Sage 和同级端侧旗舰的差距有多大
PinchBench 上的 94% 是综合结果,具体能力维度上,Sage 和行业参照点的差距更直观。
对比对象:Google-Gemma4——本月最新发布的同量级端侧旗舰。
跨学科专业知识(MMLUPro):Sage 76 分,领先同级端侧模型约 10%。端侧模型,已具备云端级通用知识密度。
研究生级专业推理(GPQA Diamond):Sage 77 分,提升 33%。这是考察深度推理的维度,也是 Agent 能否应对复杂决策的关键。
座舱语义与视觉理解(Human Semantic Understanding):Sage 91 分,提升 32%。依托原生车载数据建立的差异化优势,直接影响真实座舱体验。
工具调用与任务闭环(τ2-bench):Sage 80 分,较 Gemma4 提升 38%,接近翻倍领先。
最后这个数字值得单独说一下。
τ2-bench,专门评估模型调用工具、走完多步任务的实战能力——也就是「会聊天」和「会办事」之间的分水岭。
接近翻倍的领先,直接印证了 Sage 作为端侧智能体基座在真实任务执行上的核心优势。
市场转折点
汽车AI的上半场,靠指令
下半场,靠 Agent
为什么「端侧 Agent 基座」这件事,现在重要?
先看一组行业现实。
当前搭载了「智能语音」的汽车,普遍存在同一个用户体验瓶颈:语音助手能听,但不能想;能应答,但不能执行;能单步,但不能多步。
这不是某一家车企的问题,是整个行业在 AI 算力、模型能力和车端部署之间的结构性矛盾。
依赖云端方案的代价在放大:每次对话都要消耗 Token,单任务 token 消耗就可达数十万量级;网络抖动就会影响体验;数据隐私也是潜在风险。
端侧部署才是量产落地的唯一可行路径——但端侧模型的能力天花板,一直是整个行业的卡脖子问题。
Sage 的出现,正好踩在这个时间窗口。
Sage 可接入 OpenClaw、Hermes 等主流 Agent 框架,不只是一个座舱大模型,而是一个为更多端侧智能体落地提供核心支撑的基座——可覆盖出行、家庭等全场景智能体部署。
北京车展期间,商汤绝影将正式推出搭载 Sage 端侧多模态智能体基座大模型的SageBox,为汽车迈入超级智能体时代打下技术底座。
这意味着,车企在引入端侧 Agent 能力时,有了一套经过全球评测验证的量产方案。
商汤绝影
从「懂AI」到「懂车 AI」的技术积累
Sage 不是一款从零起步的产品。
它背后是商汤绝影多年在汽车 AI 领域的技术沉淀——从智能驾驶感知到座舱语义理解,再到今天的端侧智能体基座,每一步都在向「真正懂车、懂人、懂场景」靠近。
Sage 之所以能在 Human Semantic Understanding(座舱语义与视觉理解)上拿到 91 分、提升 32%,正是原生车载数据训练的结果。

通用大模型的训练数据里,没有「车内乘员状态感知」,没有「驾驶场景多步决策」,没有「空调+导航+影音联动」这种出行场景特有的任务链路。
Sage 有。
这种原生优势,不是靠刷榜刷出来的,是靠在真实出行场景里长期训练出来的。
智能座舱
正在迎来它真正的「奇点时刻」
回头看汽车 AI 的发展历程。
第一阶段:语音识别,能听懂人话。
第二阶段:语音助手,能应答简单指令。
第三阶段:大模型接入,能对话、能聊天。
现在,第四阶段来了——
能独立规划、能多步执行、能主动感知、能在车端实时完成复杂任务的端侧智能体。
Sage 代表的技术方向,不只是「更聪明的语音助手」,而是从根本上改变人与汽车的协作方式。
用户不再需要把一件事拆成十个指令说给汽车听,汽车开始真正理解「你想要什么」,然后想办法帮你做到。
3B 激活参数赢过了一众云端旗舰,这个结果告诉行业:智能座舱的上限,不在云端,在端侧原生技术路线上还有更多可能。
SageBox 即将亮相北京车展。
下一代汽车 AI 的样子,已经在那里了。
