
新智元报道
编辑:YHluck
端侧多模态,卷出新天花板。仅 1.3B,性能反超,效率翻倍,一张 4090 就能「爆改」。刚刚,清华系团队面壁智能开源了新一代「小钢炮」MiniCPM-V 4.6,再次证明了在端侧 AI 领域,中国团队已然站在世界前沿。
想象一下:你将一支笔放进装满水的玻璃杯,用手机拍下照片,然后问它:「这个现象的原因是什么」?

几秒钟后,手机屏幕上出现了「光的折射」的准确回答和原理解释,视觉问答表现惊人:
还有机票识别,文字提取精准:
整个过程丝滑流畅,没有联网,没有等待云端服务器的响应,不产生天价 token 账单。
而实现这一切的,不是云端某个需要排队等 API 的千亿参数模型,而是一个刚刚开源、仅有 1. 3B 的「小钢炮」——MiniCPM-V 4.6。
5 月 11 日,「国产端侧大模型担当」面壁智能联合清华大学、OpenBMB 开源社区正式开源了新一代端侧多模态大模型 MiniCPM-V 4.6。
MiniCPM-V 4.6 一经发布,立即给 1B 量级多模态模型重新划定了起跑线,给日趋白热化的端侧 AI 赛道投下了一枚重磅炸弹!

它不仅在性能上全面超越了阿里 Qwen3.5-0.8B 和谷歌 Gemma4-E2B-it 等同级对手,更在效率上实现了惊人的「反超」——参数更大,跑得却更快。
这波操作,直接打破了行业里「小尺寸=阉割版」的常规认知。
MiniCPM-V 4.6 用扎实硬核的数据向行业证明:1B 级模型,也可以是性能强悍、足以在端云两栖部署的工业级武器。
此外,在尺寸上,MiniCPM-V 4.6 是 MiniCPM-V 系列模型上有史以来参数规模最小的模型,只有 1B 左右,但智能密度却为同尺寸模型范围内最高,这再次验证了面壁智能在 2024 年提出并登上 Nature 子刊的「密度定律」。
根据 Artificial Analysis(AA)榜单评测,MiniCPM-V 4.6 1.3B(非推理版本)的运行仅消耗 5.4M token 量,仅为 Qwen3.5-0.8B(非推理版本,101M)的1/19、Qwen 3.5-0.8B(推理版本,233M)的1/43:

Hugging Face:
https://huggingface.co/openbmb/MiniCPM-V-4.6
GitHub:
https://github.com/OpenBMB/MiniCPM-V
Modelscope:
https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6
Web Demo:
https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo
APP Demo:
https://github.com/OpenBMB/MiniCPM-V-Apps
性能越级,效率反超
体感是最终标准
Talk is cheap,直接上数据。
在多个主流 Benchmark 上,MiniCPM-V 4.6 的表现突出一个「反常识」。
无论是做通用图文理解、解数学题,还是搞文档 OCR,它的 Instruct 版和 Thinking 版基本都是乱杀局,全面碾压 Qwen3.5-0.8B 与 Gemma4-E2B-it。


在更看综合实力的Artificial Analysis(AA)榜单上,MiniCPM-V 4.6 的得分也表现出色,领先 Mistral 3 3B、Qwen 3.5-0.8B 等在内的一众模型一个身位,成为了 1B 多模态大模型赛道的「新科状元」!

但真正让技术圈高潮的,是它的效率!
-
推理吞吐量:直接干到 1.5 倍
拿一张 4090 跑高并发,MiniCPM-V 4.6 处理高清图的吞吐量是 Qwen3.5-0.8B 的1. 5 倍。
什么概念?一样的服务器成本,你能扛住过去 1.5 倍的用户流量。对于 SaaS 服务来说,这就是赤裸裸的利润。

-
首响延迟(TTFT):延迟曲线被拉直了!
处理 3136²的超高清大图,它的首响延迟比对手快了2. 2 倍。更惊人的是,当图片分辨率暴涨 49 倍,它的延迟增长居然不到 2.5 倍。
这条几乎被「拉直」的延迟曲线,意味着你的 4090 无论加载多大的图,用户体感都差不多——一个字,稳!

这两个维度共同指向同一个结论:MiniCPM-V 4.6 用更短的视觉序列和更小的 KV-Cache,把端侧体感与云侧 ROI 同时推到了新的高度。
对端侧产品而言,这意味着流畅;对云端工业场景而言,这意味着同等成本下的吞吐翻倍。
参数更大,跑得更快,这听起来就像是物理学不存在了。但这背后,是两个非常硬核的架构创新。
技术深扒:这效率「外挂」是怎么开的?
为什么一个比 Qwen3.5-0.8B 参数更大的模型,反而跑得更快?
答案藏在 MiniCPM-V 4.6 的两项核心架构创新里:一个是 ViT 架构创新,另一个是 4 倍/16 倍混合视觉 token 压缩率。
ViT 架构重构
LLaVA-UHD v4 开路
传统 ViT(视觉编码器) 在编码图像时,会让大量冗余视觉 token 一路跑完全程,造成显著的算力浪费。
就像个耿直的打工人,收到一堆视觉 Token(图像信息块),不管有用没用、全部拉通处理一遍,计算量巨大。
而 MiniCPM-V 4.6 不当「老实人」,采用了面壁智能联合清华大学自研的LLaVA-UHD v4技术,在 ViT 内部很早就把没用的 Token 给优化掉了,提前完成视觉 token 的压缩,算力直接节省约 50%!
也就是说,仅在图像编码这一环节,MiniCPM-V 4.6 就比传统 ViT 路线少跑了一半的开销,且性能不掉点。
这也是为什么 MiniCPM-V 4.6 虽然参数比 Qwen3.5-0.8B 略大,却在推理效率上实现反超的根本原因。
具体是怎么做到的?
主要是 LLaVA-UHD v4 围绕两个方向做了优化:如何更高效地看高清大图,以及如何更早地减少视觉 Token 带来的计算负担。
一是「切片大法」:不傻乎乎地处理整张高清大图,而是先切成小块,分而治之。这样 Attention 计算量就不会随分辨率指数爆炸。MiniCPM-V 4.6 的研究团队做了不同尺寸和不同数据量的模型试验,证明切片相比于全局编码不掉点——这实际是一个「反常识」的技术突破。
二是「提前压缩」:最关键的一步。在 ViT 刚开始工作没多久,就用一个精巧的压缩模块(Intra-ViT Early Compressor)把 Token 数量压下来。这样一来,后续 ViT 层的计算开销节省 75%+。

LLaVA-UHD v4 论文链接:https://huggingface.co/papers/2605.08985
通过这一设计,视觉 Token 压缩可以稳定地前移到 ViT 浅层,在大幅降低后续计算量的同时,仍然保持较好的图像表征质量和下游任务表现。
这就是 MiniCPM-V 4.6「效率反超」的秘密武器:在最耗算力的环节,只干最该干的活。
4 倍/16 倍混合压缩
给足开发者选择权
视觉 token 压缩率,影响的是显存占用、首响延迟、推理吞吐、功耗这些核心效率指标,压缩率越高,响应速度就越快。
市面上的多模态大模型,绝大部分都焊死在了固定的 4 倍压缩上。而 MiniCPM-V 系列从 2024 年起就率先支持 16 倍压缩,此前支持在 4 倍/16 倍中二选一,但这次 MiniCPM-V 4.6 实现了鱼和熊掌可兼得:
-
4 倍模式(精度更高):适合高要求识别任务,如文档解析、密集文字识别等。跑文档识别、医疗影像这种任务,一个像素都不能错。
-
16 倍模式(速度更快):跑手机端实时交互、云端高并发 API,速度就是生命线。
这个设计,让同一个模型既能塞进手机里做你的随身 AI,又能部署在云端扛住千万级日活。两全其美,开发者便无需做取舍。
这可不是 PPT 技术。快手的推荐大模型 OneRec,扛下主场景 25% 的流量,就采用了 MiniCPM-V 系列模型。16 倍压缩的工业级实战能力,已经被真金白银验证过了。

论文地址:
https://arxiv.org/abs/2502.18965
只需一张 4090
为「魔改」而生的开源生态
技术再牛,部署和微调不行、开发者照样不买账。
面壁智能这次直接把开发者体验拉满了。
最炸裂的一点是:一张消费级的 RTX 4090,就能完整跑下全量微调!
这意味着什么?无论是独立开发者、小团队还是学术圈,多模态模型的定制化开发,都能用得起 MiniCPM-V 4.6,门槛从「服务器集群」直接降到了「一台高性能 PC」。这才是真正的 AI 普惠!
配套的工具链也安排得明明白白!
MiniCPM-V 4.6 实现了与当前主流开源生态的全面无缝对接,让开发者彻底告别繁琐的环境配置:
-
微调:原生支持最火的 LLaMA-Factory 和 ms-swift——
微调框架
LLaMA-Factory:
MiniCPM-V-CookBook/finetune/finetune_minicpmv46_zh.md at main · OpenSQZ/MiniCPM-V-CookBook
ms-swift:
MiniCPM-V-CookBook/finetune/finetune_minicpmv46_zh.md at main · OpenSQZ/MiniCPM-V-CookBook
-
推理:vLLM、SGLang、llama.cpp、Ollama 全家桶无缝衔接——
推理框架:
vLLM:
https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm_zh.md
SGLang:
https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/sglang/minicpm-v4_6_sglang_zh.md
llama.cpp:
https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp.md
Ollama:
https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama_zh.md
极低的显存占用、极高的并发吞吐量、完备的上下游工具链——可以说MiniCPM-V 4.6 天生就是为了被「魔改」而生,是开发者用于构建高并发计算、极速响应的垂直应用的高性价比多模态底座。
它把最硬核的底层优化做完,把最灵活的改造空间留给了社区。
附端侧部署指南:
https://github.com/tc-mb/MiniCPM-V-edge-demo/blob/main/README_zh.md
从「被抄袭」到「定义者」
端侧 AI 的中国叙事
从 2024 年 4 月的 V 2.0 算起,MiniCPM-V 已经走过了 6 代。

截至 2026 年 3 月,MiniCPM-V 系列在开源社区累计下载量已接近 3000 万,多次霸榜 GitHub Trending 与 HuggingFace 趋势榜。
在产业落地端,已先后服务于联想、吉利、上汽大众、广汽、马自达、红旗等厂商,覆盖汽车、PC、手机、智能家居等多场景。
回顾面壁智能的 MiniCPM-V 系列,你会发现一条非常清晰的进化路径——追求极致的「智能密度」。
也就是,用最小的代价,干最智能的事。
从 2024 年面壁智能密度定律登上《Nature 子刊》,到 MiniCPM-V2.5 被斯坦福研究团队「套壳」引发全球关注,再到今天 MiniCPM-V 4.6 用 1.3B 模型重新定义端侧效率,面壁智能已经变成端侧 AI 赛道的最大「定义者」。
MiniCPM-V 4.6 的发布,不只是一个更强的模型,更是一个信号:端侧 AI 的「妥协」时代,正在结束。
MiniCPM-V 4.6 证明了:1B 多模态模型可以又强又快又省,也可以同时担任端侧最佳基座和云端高并发利器。
面壁在做的事情,从来不是卷参数、卷榜单。
他们在用一种近乎偏执的方式,把 AI 能力塞进每一块你能想到的屏幕里——手机、平板、车载屏、智能家居面板、工厂质检终端……凡是有屏幕、有芯片的地方,都是他们想覆盖的场景。这便是所谓「智周万物」。
