
新智元报道
编辑:好困桃子
开源 AI 王座一夜易主!Kimi K2.6 出道即巅峰,展示了恐怖的「全栈交付」能力。它不仅能复刻高盛研报、手搓奢华官网,甚至能和人类在群组里并肩打工。
开源模型追平甚至反超闭源三巨头,这件事真的发生了。
4 月 20 日深夜,Kimi K2.6 出道即开源。


-
HLE「人类最后的考试」54.0 分,碾压 GPT-5.4 和 Claude Opus 4.6
-
SWE-Bench Pro 软件工程实战 58.6 分,超过 GPT-5.4 的 57.7
-
Terminal-Bench 终端编码 66.5 分,而 GPT-5.4 只有 60.4
-
Artificial Analysis 评测中,更是直接坐上了世界开源第一王座

但我们今天抛开跑分,只聊一件事:K2.6 到底能干出什么活。
代码写完了,设计也交了
首先,让 K2.6 Agent 制作一个近地轨道旅行公司 ORBITAL 的官网,要求植入太空舱座位选择和航班预订功能。

打开的瞬间,商业航天的高级感直接拉满。
全屏视频背景是太空舱窗口视角,地球弧面缓缓转过,大气层边缘泛着蓝光。
右下的飞行数据面板用等宽字体列出关键参数,左上的荧光青小圆点在缓慢呼吸闪烁,模拟系统在线状态。
往下滑动,是一条垂直时间线驱动的飞行叙事。
从T-60:00 在樟宜航天港换上定制加压服,到T+03:00 推进阶段承受过载,到T+08:00 零重力开始,一直到T+92:00 Touchdown,太空舱溅落海面,回收潜水员围上来。每个阶段带一个橙色关键数据和 AI 生成的场景配图。
一段 prompt,一次生成,从品牌视觉系统到可交互的舱位 SVG 图,全部到位。

K2.6 Agent 做出来的不只是好看的前端,它能做全栈交付。
后台的航班预订系统是真的能跑的。选日期、挑座位、填乘客信息,预约数据做了持久化存储,每航班 6 座上限,满了自动锁定。
这个网站不是一个「看样子」的空壳,它带着完整的后端逻辑。
换个题材。
同样的 prompt 结构,K2.6 Agent 产出了深海探索研究机构「THALASSA」的官网。
首屏运镜从北大西洋海面垂直下沉入水,穿过水线的瞬间画面一分为二,蓝色从浅到深渐变,远处墨蓝中亮着两点暖黄色潜水器灯光。
三台潜水器参数卡片精确到推进方式和观察窗尺寸,6 种深海生物各占一屏。田野笔记区三篇文章分别署名首席科学家、海洋生物学家和纪录片导演。
奢侈香水品牌ÆTHER 的官网,K2.6 Agent 在「极致美学」上的统治力展现得最充分。
只见一支琥珀色香水瓶在大理石台面上,瓶内液体缓慢旋转,光线穿透玻璃投射出焦散纹。
「ÆTHER」五个字母用 Cormorant Garamond 衬线体叠在瓶身上。La Collection 区展示 5 款香水,可拖拽切换。
5 款香水、5 套完整香调金字塔、5 句手写文案、5 张各不相同的瓶身图。
这些网站能做到这个水准,背后是 K2.6 模型加上 Kimi Agent 模式 harness 的实力。超过了 Google AI Studio 中的 Gemini 3.1 Pro。

产出的是可以直接丢进项目的 React 组件和 HTML/CSS 代码,带动画关键帧、hover 状态、滚动触发动效,甚至拖拽界面和多步表单,跟静态 Mockup 完全两码事。
前端编码的审美是 Kimi 从 K2.5 就开始卷的能力,到 K2.6 又券出了新境界。没猜错的话,这应该是杨植麟在 2025 年底内部信中提到的 agent 产品 taste 之一?
300 个 Agent,4000 步,一次交付
1T 巨量参数,每个 token 只激活 32B 的开源 MoE,384 个专家选 8 个激活。
连续编码 13 小时不断线,单次修改超过 4000 行代码。
内部实测中自主重构了一个 8 年历史的金融撮合引擎,峰值吞吐量涨了 133%。
有了这个底子,Agent 集群才真正有了用武之地。

长程编码解决「一个人能干多久」,Agent 集群解决「一支团队能做多大的事」。
K2.5 时代是 100 个子 Agent、1500 步。K2.6 直接拉到 300 个子 Agent、4000 步。
不同技能特长的 Agent 互补协作,一次运行就能交付从文档到网页、从 PPT 到表格的全套产物。
过去丢给 Kimi 一个复杂任务,它一个人从头干到尾,遇到不擅长的环节就可能卡住。现在它会自己拆活、组队、分头干,每个子 Agent 专攻自己擅长的那块,最后汇总交付。
Claw Bench 的内部测试结果显示,K2.6 在无需人工干预的长时间自主运行场景中提升尤为明显。
在自主 Agent 场景中,K2.6 与 OpenClaw、Hermes Agent 配合可长达 5 天持续自主运行。

这个「集群」到底能干什么?我们做了三轮测试。
30 个 Agent 写 30 座城市的凌晨四点
首先,让 Agent 们化身为 30 座城市在凌晨四点仍然醒着的一个人。
拉各斯的发电机维修工、孟买的送报员、里约的沙滩清洁工、新加坡的港口调度员、旧金山的程序员、马尼拉呼叫中心的夜班接线员……
每人写一段 200 字以内的第一人称片段,只写动作和感官,禁止出现「孤独」「寂寞」等直白情感词。


这类任务的难点不在单篇文字,而是 30 篇之间不能撞。
拉各斯维修工写的是「柴油滴在指关节上,油膜裹住皮肤的纹理,滑腻的触感像涂了一层冷蜡。我握紧扳手,将十六毫米套筒扣住螺栓,顺时针拧动,金属与金属碰撞出咔哒咔哒的咬合声」。
旧金山程序员写的是「Cherry 青轴的咔哒声在黑暗里格外脆。食指敲下回车,蓝光从屏幕扑到脸上,眼皮被刺得一紧」。
马尼拉接线员写的是「隔断板上女儿的相片边角翘起来了,我用小拇指把它按平,胶纸的粘性不够了」。
感官锚点没有一个重复,每页的背景图也是匹配生成的。30 张图 30 种气氛,视觉风格统一在深夜的暗调里。
Skill × Agent 集群,复刻高盛研报
Agent 集群负责干活,但「按什么标准干」还需要一个东西来定义。
Kimi Agent 的技能(Skill)就是干这个的。
系统内置了上百个官方推荐技能包,用户也可以自己创建,输入斜杠「/」即可调用。
两者叠在一起会怎样?
我们上传一份高盛的研究报告,让 Kimi K2.6 分析架构、语言风格,并总结出一个 Skill。


做好之后,就可以直接调用这个最新的技能 goldman-research-report,让 Kimi K2.6 做一份类似的调研报告:
2026 年的硅谷 AI 竞争格局,需要提及 Anthropic、OpenAI、谷歌、xAI、Meta。
命令一发出,一大批 Agent 全部上线,每一人分工任务明确。
比如,纳什负责 OpenAI、唐墨负责 Anthropic、逸飞谷歌、莉香 xAI、胡博士 Meta......

然后,这些 Agent 团队分别开始推进自己的子任务的报告,每一个完成后,都会主动汇报已完成。
调研完成后,进入交叉验证阶段,素材事实性没有问题后,交由「高盛报告撰写员 Agent」再次分配任务。


最后,就得到了一份非常详实,且1:1 复刻「高盛风格」的硅谷局势分析的 Word 版报告。

一次出三件套,跨文档数据零误差
加大难度。
这次要求 Agent 集群一次性交付 PDF 深度报告、Excel 数据底表和英文 PPT 三件套,主题是全球 AI 基础设施竞争情报,覆盖芯片、云计算、数据中心、网络设备四个层级的 60 家企业。
Agent 集群跑完后交付了一份 76 页的 PDF、一份 Excel 底表和一套 PPT。
PDF 采用摩根士丹利蓝皮书风格,内容细到芯片架构的算力密度公式和 NVIDIA B200 vs AMD MI350X 的参数对比表。

同样的,系统也自动做了跨文档一致性验证,五项检查,全部绿勾。
60 家企业的名称和数据,在 PDF、Excel、PPT 里对得上每一个数字。
这种「交付即可审计」的完成度,放在真人团队里都不一定做得到。
One More Thing
Agent 集群让 AI 学会了自动化分工。
但下一步的问题更大,能不能把人类和各种不同来源的 Agent 放在一个群组里,像真正的团队一样协作?
人类统治地球靠的是大规模协作,单个人打不过老虎。
AI Agent 走向实用化也在走同样的路,从个体智能到群体智能,再到人机混合智能。
Kimi 团队的答案叫「Claw 群组」,目前已开启小范围内测。
用户可以接入来自任何设备、任何供应商、运行任何模型的龙虾,每个龙虾携带各自的工具包、技能和持久化记忆。首批兼容 OpenClaw,后续会加入 Hermes Agent 等框架。
无论部署在本地笔记本、手机还是云端,都能进入同一个协同办公群组。
K2.6 在群组中担任协调者(包工头),根据 Agent 的技能画像动态匹配任务。人类是下达任务的甲方。
当某个 Agent 故障或停滞时,协调者自动重新分配任务或生成子任务,对交付物全生命周期进行主动管理。
Kimi 自己的营销团队已经在用 Claw 群组跑内容生产流水线。有人教自己的虾学会了剪视频,有人教自己的虾调研社媒热帖,有人的虾是做 Benchmark 图的好手……那为什么不把他们拉到一个群里干活。
Demo Maker、Benchmark Maker、Social Media Agent、Video Maker 各司其职,K2.6 做全局协调,从创意到成品一条线拉通。
从一个 Agent 做一件事,到 300 个 Agent 做一套事,到人类和 Agent 坐进同一个群里一起干活……进化的从来不是技术,而是“我们“的边界。
