国思软件 - 清华系团队出手！一张 4090 即可「爆改」，1.3B小钢炮震撼开源

　　新智元报道

　　编辑：YHluck

　　端侧多模态，卷出新天花板。仅 1.3B，性能反超，效率翻倍，一张 4090 就能「爆改」。刚刚，清华系团队面壁智能开源了新一代「小钢炮」MiniCPM-V 4.6，再次证明了在端侧 AI 领域，中国团队已然站在世界前沿。

　　想象一下：你将一支笔放进装满水的玻璃杯，用手机拍下照片，然后问它：「这个现象的原因是什么」？

　　几秒钟后，手机屏幕上出现了「光的折射」的准确回答和原理解释，视觉问答表现惊人：

　　还有机票识别，文字提取精准：

　　整个过程丝滑流畅，没有联网，没有等待云端服务器的响应，不产生天价 token 账单。

　　而实现这一切的，不是云端某个需要排队等 API 的千亿参数模型，而是一个刚刚开源、仅有 1. 3B 的「小钢炮」——MiniCPM-V 4.6。

　　5 月 11 日，「国产端侧大模型担当」面壁智能联合清华大学、OpenBMB 开源社区正式开源了新一代端侧多模态大模型 MiniCPM-V 4.6。

　　MiniCPM-V 4.6 一经发布，立即给 1B 量级多模态模型重新划定了起跑线，给日趋白热化的端侧 AI 赛道投下了一枚重磅炸弹！

　　它不仅在性能上全面超越了阿里 Qwen3.5-0.8B 和谷歌 Gemma4-E2B-it 等同级对手，更在效率上实现了惊人的「反超」——参数更大，跑得却更快。

　　这波操作，直接打破了行业里「小尺寸=阉割版」的常规认知。

　　MiniCPM-V 4.6 用扎实硬核的数据向行业证明：1B 级模型，也可以是性能强悍、足以在端云两栖部署的工业级武器。

　　此外，在尺寸上，MiniCPM-V 4.6 是 MiniCPM-V 系列模型上有史以来参数规模最小的模型，只有 1B 左右，但智能密度却为同尺寸模型范围内最高，这再次验证了面壁智能在 2024 年提出并登上 Nature 子刊的「密度定律」。

　　根据 Artificial Analysis（AA）榜单评测，MiniCPM-V 4.6 1.3B（非推理版本）的运行仅消耗 5.4M token 量，仅为 Qwen3.5-0.8B（非推理版本，101M）的1/19、Qwen 3.5-0.8B（推理版本，233M）的1/43：

　　Hugging Face：

　　https://huggingface.co/openbmb/MiniCPM-V-4.6

　　GitHub：

　　https://github.com/OpenBMB/MiniCPM-V

　　Modelscope：

　　https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6

　　Web Demo：

　　https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo

　　APP Demo：

　　https://github.com/OpenBMB/MiniCPM-V-Apps

　　性能越级，效率反超

　　体感是最终标准

　　Talk is cheap，直接上数据。

　　在多个主流 Benchmark 上，MiniCPM-V 4.6 的表现突出一个「反常识」。

　　无论是做通用图文理解、解数学题，还是搞文档 OCR，它的 Instruct 版和 Thinking 版基本都是乱杀局，全面碾压 Qwen3.5-0.8B 与 Gemma4-E2B-it。

　　在更看综合实力的Artificial Analysis（AA）榜单上，MiniCPM-V 4.6 的得分也表现出色，领先 Mistral 3 3B、Qwen 3.5-0.8B 等在内的一众模型一个身位，成为了 1B 多模态大模型赛道的「新科状元」！

　　但真正让技术圈高潮的，是它的效率！

推理吞吐量：直接干到 1.5 倍

　　拿一张 4090 跑高并发，MiniCPM-V 4.6 处理高清图的吞吐量是 Qwen3.5-0.8B 的1. 5 倍。

　　什么概念？一样的服务器成本，你能扛住过去 1.5 倍的用户流量。对于 SaaS 服务来说，这就是赤裸裸的利润。

首响延迟（TTFT）：延迟曲线被拉直了！

　　处理 3136²的超高清大图，它的首响延迟比对手快了2. 2 倍。更惊人的是，当图片分辨率暴涨 49 倍，它的延迟增长居然不到 2.5 倍。

　　这条几乎被「拉直」的延迟曲线，意味着你的 4090 无论加载多大的图，用户体感都差不多——一个字，稳！

　　这两个维度共同指向同一个结论：MiniCPM-V 4.6 用更短的视觉序列和更小的 KV-Cache，把端侧体感与云侧 ROI 同时推到了新的高度。

　　对端侧产品而言，这意味着流畅；对云端工业场景而言，这意味着同等成本下的吞吐翻倍。

　　参数更大，跑得更快，这听起来就像是物理学不存在了。但这背后，是两个非常硬核的架构创新。

　　技术深扒：这效率「外挂」是怎么开的？

　　为什么一个比 Qwen3.5-0.8B 参数更大的模型，反而跑得更快？

　　答案藏在 MiniCPM-V 4.6 的两项核心架构创新里：一个是 ViT 架构创新，另一个是 4 倍/16 倍混合视觉 token 压缩率。

　　ViT 架构重构

　　LLaVA-UHD v4 开路

　　传统 ViT（视觉编码器）在编码图像时，会让大量冗余视觉 token 一路跑完全程，造成显著的算力浪费。

　　就像个耿直的打工人，收到一堆视觉 Token（图像信息块），不管有用没用、全部拉通处理一遍，计算量巨大。

　　而 MiniCPM-V 4.6 不当「老实人」，采用了面壁智能联合清华大学自研的LLaVA-UHD v4技术，在 ViT 内部很早就把没用的 Token 给优化掉了，提前完成视觉 token 的压缩，算力直接节省约 50%！

　　也就是说，仅在图像编码这一环节，MiniCPM-V 4.6 就比传统 ViT 路线少跑了一半的开销，且性能不掉点。

　　这也是为什么 MiniCPM-V 4.6 虽然参数比 Qwen3.5-0.8B 略大，却在推理效率上实现反超的根本原因。

　　具体是怎么做到的？

　　主要是 LLaVA-UHD v4 围绕两个方向做了优化：如何更高效地看高清大图，以及如何更早地减少视觉 Token 带来的计算负担。

　　一是「切片大法」：不傻乎乎地处理整张高清大图，而是先切成小块，分而治之。这样 Attention 计算量就不会随分辨率指数爆炸。MiniCPM-V 4.6 的研究团队做了不同尺寸和不同数据量的模型试验，证明切片相比于全局编码不掉点——这实际是一个「反常识」的技术突破。

　　二是「提前压缩」：最关键的一步。在 ViT 刚开始工作没多久，就用一个精巧的压缩模块（Intra-ViT Early Compressor）把 Token 数量压下来。这样一来，后续 ViT 层的计算开销节省 75%+。

　　LLaVA-UHD v4 论文链接：https://huggingface.co/papers/2605.08985

　　通过这一设计，视觉 Token 压缩可以稳定地前移到 ViT 浅层，在大幅降低后续计算量的同时，仍然保持较好的图像表征质量和下游任务表现。

　　这就是 MiniCPM-V 4.6「效率反超」的秘密武器：在最耗算力的环节，只干最该干的活。

　　4 倍/16 倍混合压缩

　　给足开发者选择权

　　视觉 token 压缩率，影响的是显存占用、首响延迟、推理吞吐、功耗这些核心效率指标，压缩率越高，响应速度就越快。

　　市面上的多模态大模型，绝大部分都焊死在了固定的 4 倍压缩上。而 MiniCPM-V 系列从 2024 年起就率先支持 16 倍压缩，此前支持在 4 倍/16 倍中二选一，但这次 MiniCPM-V 4.6 实现了鱼和熊掌可兼得：

4 倍模式（精度更高）：适合高要求识别任务，如文档解析、密集文字识别等。跑文档识别、医疗影像这种任务，一个像素都不能错。
16 倍模式（速度更快）：跑手机端实时交互、云端高并发 API，速度就是生命线。

　　这个设计，让同一个模型既能塞进手机里做你的随身 AI，又能部署在云端扛住千万级日活。两全其美，开发者便无需做取舍。

　　这可不是 PPT 技术。快手的推荐大模型 OneRec，扛下主场景 25% 的流量，就采用了 MiniCPM-V 系列模型。16 倍压缩的工业级实战能力，已经被真金白银验证过了。

　　论文地址：

　　https://arxiv.org/abs/2502.18965

　　只需一张 4090

　　为「魔改」而生的开源生态

　　技术再牛，部署和微调不行、开发者照样不买账。

　　面壁智能这次直接把开发者体验拉满了。

　　最炸裂的一点是：一张消费级的 RTX 4090，就能完整跑下全量微调！

　　这意味着什么？无论是独立开发者、小团队还是学术圈，多模态模型的定制化开发，都能用得起 MiniCPM-V 4.6，门槛从「服务器集群」直接降到了「一台高性能 PC」。这才是真正的 AI 普惠！

　　配套的工具链也安排得明明白白！

　　MiniCPM-V 4.6 实现了与当前主流开源生态的全面无缝对接，让开发者彻底告别繁琐的环境配置：

微调：原生支持最火的 LLaMA-Factory 和 ms-swift——

　　微调框架

　　LLaMA-Factory：

　　MiniCPM-V-CookBook/finetune/finetune_minicpmv46_zh.md at main · OpenSQZ/MiniCPM-V-CookBook

　　ms-swift：

　　MiniCPM-V-CookBook/finetune/finetune_minicpmv46_zh.md at main · OpenSQZ/MiniCPM-V-CookBook

推理：vLLM、SGLang、llama.cpp、Ollama 全家桶无缝衔接——

　　推理框架：

　　vLLM：

　　https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm_zh.md

　　SGLang：

　　https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/sglang/minicpm-v4_6_sglang_zh.md

　　llama.cpp：

　　https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp.md

　　Ollama：

　　https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama_zh.md

　　极低的显存占用、极高的并发吞吐量、完备的上下游工具链——可以说MiniCPM-V 4.6 天生就是为了被「魔改」而生，是开发者用于构建高并发计算、极速响应的垂直应用的高性价比多模态底座。

　　它把最硬核的底层优化做完，把最灵活的改造空间留给了社区。

　　附端侧部署指南：

　　https://github.com/tc-mb/MiniCPM-V-edge-demo/blob/main/README_zh.md

　　从「被抄袭」到「定义者」

　　端侧 AI 的中国叙事

　　从 2024 年 4 月的 V 2.0 算起，MiniCPM-V 已经走过了 6 代。

　　截至 2026 年 3 月，MiniCPM-V 系列在开源社区累计下载量已接近 3000 万，多次霸榜 GitHub Trending 与 HuggingFace 趋势榜。

　　在产业落地端，已先后服务于联想、吉利、上汽大众、广汽、马自达、红旗等厂商，覆盖汽车、PC、手机、智能家居等多场景。

　　回顾面壁智能的 MiniCPM-V 系列，你会发现一条非常清晰的进化路径——追求极致的「智能密度」。

　　也就是，用最小的代价，干最智能的事。

　　从 2024 年面壁智能密度定律登上《Nature 子刊》，到 MiniCPM-V2.5 被斯坦福研究团队「套壳」引发全球关注，再到今天 MiniCPM-V 4.6 用 1.3B 模型重新定义端侧效率，面壁智能已经变成端侧 AI 赛道的最大「定义者」。

　　MiniCPM-V 4.6 的发布，不只是一个更强的模型，更是一个信号：端侧 AI 的「妥协」时代，正在结束。

　　MiniCPM-V 4.6 证明了：1B 多模态模型可以又强又快又省，也可以同时担任端侧最佳基座和云端高并发利器。

　　面壁在做的事情，从来不是卷参数、卷榜单。

　　他们在用一种近乎偏执的方式，把 AI 能力塞进每一块你能想到的屏幕里——手机、平板、车载屏、智能家居面板、工厂质检终端……凡是有屏幕、有芯片的地方，都是他们想覆盖的场景。这便是所谓「智周万物」。

清华系团队出手！一张 4090 即可「爆改」，1.3B小钢炮震撼开源

我们的产品

相关链接

关于我们

联系我们