
新智元报道

刚刚,清华团队开源硬核 Agent 系统 PilotDeck,在开发者圈已经传疯了。项目独立建舱,记忆可视可改,Token 还能省一大半。从此,一个人,就是一支 AI 军团!
龙虾凉了?
曾经 2026 年初爆火全国的 OpenClaw,已经降温了。
身边曾经通宵魔改 OpenClaw 的朋友们,已经把它默默打入了冷宫。这个曾经以史上最快速度在 GitHub 上爆火的项目,如今声量几乎掉到了冰点。
小龙虾可能已经完成了历史使命——它像飓风一般,第一次把 Agent 的范式真正吹进了大众视野,让所有人明白:AI 不只是个陪聊的 Chatbot,它是能主动替你干活的。
但它没能成为 Linux。因为跑得太快,它还没来得及建立起足够深的代码壁垒和生态,就被拍在了沙滩上。
所以,那些真正需要靠 Agent 搞生产力的人,现在在用什么时髦的新工具?
最近,一个名为 PilotDeck 的智能体操作系统,在圈内低调上线了。

这项技术由清华大学 THUNLP 实验室、面壁智能、OpenBMB 与 AI9stars 联合研发并开源。
如果说 OpenClaw 是一个极客浪漫主义的「大玩具」,那么这位「清华系高材生」,就是可以把隔壁小龙虾拍在沙滩上的,真正面向纯粹生产力的「智能体协作舱」。
从奶茶店到数据大屏,跨度大到离谱
它和那些浅尝辄止的初代 Agent 有什么区别,让我们来看几个非常直观的测试。
我们同时开了两个 WorkSpace,一个做游戏,一个做数据可视化。同时跑,看它能不能扛住。
第一个 WorkSpace,丢进去一句话。
「做一个模拟经营奶茶店的小游戏。要有进货、定价、排队系统,顾客会根据价格和口碑决定买不买。」
输入 prompt 后,它就生成了一个非常详细的奶茶模拟店经营游戏计划。
PilotDeck 拆解了游戏设计中的核心循环,设计了 5 款奶茶的产品线,还自己设计了进货系统、定价系统、顾客与排队系统、财务系统等等。
在技术实现中,它提前构想好了清新卡片风的 UI 布局,写出了关键的 JS 模块和实现步骤。


最终,一个奶茶游戏就可以在线试玩了!
第二个 WorkSpace,完全不同方向。
「这里有一组全球 AI 公司融资数据,帮我做一个互动式数据可视化大屏,要有动画效果,鼠标悬停能看详情。」
在这个任务中,PilotDeck 用四个图,分别展示了融资总额 TOP 10,北美/欧洲/亚洲地区融资占比,通用 AI/企业 AI/生成式 AI 赛道分布等等。
最终生成的可视化大屏,非常清晰地展示了各区的 AI 公司融资数据。

两个任务同时跑。一个在写游戏逻辑,一个在画图表。互不干扰。
跑完之后我们又加了一个纯好玩的。
「做一个程序员性格测试,10 道题,测出来你是哪种程序员人格,要有结果页和分享卡片。」
PilotDeck 生成了非常贴近真实开发场景的 10 道选择题,并且分为了架构师️/ 搬砖侠/ 完美主义者✨/魔法师/ 布道师/ 哲学家 6 种人格。
视觉风格是 GitHub 暗色主题和 JetBrains Mono 等宽字体,科技感十足。

测完 10 道题,最后结果显示,本人是搬砖侠实锤了。

从经营游戏到数据大屏到社交小应用,跨度大到离谱。
但在 PilotDeck 里,每个都是独立的 WorkSpace,各跑各的。
别人隔离文件夹,它隔离整个世界
跑完之后,我们做了一件更有意思的事,分别打开两个项目的 Memory 面板。

奶茶店项目的记忆里,存的是游戏逻辑、UI 风格、玩法参数。
数据大屏项目的记忆里,存的是图表类型、配色方案、数据处理逻辑。
两边没有一条记忆串台。


这才是 PilotDeck 的 WorkSpace 和别家最根本的区别。
虽然 Claude Cowork 引入了 Projects 做项目隔离,Cursor 也有 Workspace,但它们的隔离本质上还是「文件夹+规则」,记忆看不见改不了,技能不会随着使用越多越进化,成本分不清哪个项目花了多少。
PilotDeck 给每个项目建的是一个完整的「工作舱」,舱里有三层。
· 专属文件系统:哪些文件归这个项目、AI 生成了什么,边界清楚。
· 专属记忆:Project Memory 记项目定义和进度,Collaboration Feedback 记你的偏好。全都看得见、改得了、追得到来源。
· 专属技能:Skill 应用商店一键装到对应 WorkSpace,给做游戏的舱装 game-asset-finder,给写文档的舱装 minimax-pdf。

别家的 WorkSpace 是文件夹加静态规则。PilotDeck 的 WorkSpace 是 AI 的完整生存环境。
Token 账单砍了一半,效果没掉
Agent 工具有个公开的秘密,虽然用起来很爽,账单一出却很吓人。
全程调最强模型跑任务,Token 烧起来比打车还贵。
很多人的应对策略是手动切模型,简单问题用便宜的,复杂问题换贵的。但这个切换成本本身就很烦。
PilotDeck 做了一套智能路由,而且做法和市面上的方案不太一样。
先说最关键的一个设计决策。
大部分路由方案是按 request 级别切的,每一次请求都单独判断走哪个模型。
这么做的问题是,模型频繁切换会打断 KV-cache,相当于每次换模型都要重新「读档」,推理效率反而下降。
PilotDeck 的路由是在子 Agent 层面做的。
一个复杂任务拆成多个子任务后,整个子 Agent 分配给一个模型跑到底,这个子 Agent 内部的上下文缓存是连续的。
省的不只是 token 的钱,还有来回切换带来的性能损耗。
然后,是调度规则。
相比于写死的路由方案,比如「贵模型做难题、便宜模型做简单题」,PilotDeck 要灵活得多。
它支持用规则和 prompt 来调节路由策略,你可以自己定义什么类型的任务走什么模型,甚至用自然语言告诉它「代码相关的子任务都走 Claude Opus,文本处理走便宜模型」。
打开 Routing 面板,每个 session 被判定为什么难度(complex / simple / medium)、实际花了多少、不开路由要花多少,全都列在那儿。
比如在我们跑的几个任务中,可以看到在程序员人格测试应用中,不开路由要花费 10.97 美元,开路由后实际只花了 1.42 美元,一下子就省出了 75%(9.55 美元)。

研究团队在更大规模的测试里也验证了这个效果。
社交媒体场景(小红书内容生成),开路由花 2.83 美元,不开路由 12.58 美元,省了约 70%。
复杂任务场景(播客多语言、金融分析、代码文档等),主 Sonnet 4.6 + 子 MiniMax-M2.7 花 3.15 美元、得分 70.6,单体 Sonnet 4.6 花 18.36 美元、得分 69.1。虽然只有1/6 的价格,但效果还略好一点。
如果只想要效果拉满,那完全可以把路由关掉,全程跑最强模型,选择权都在你手里。
而且,路由的能力还不止于此。
PilotDeck 可以接本地部署的模型做子 Agent,敏感数据不出本机。
有些任务它甚至会自己判断需要什么工具,自动部署一个端侧模型来干活,比如播客多语言处理时,它会自己装一个 VoxCPM 来生成语音。
也可以云端模型负责思考,本地模型负责执行,这样,就把省钱和隐私一起解决了。
打开 AI 的大脑,逐条改
如今,Agent 的记忆已经不再是原来的那种黑盒。
但很多时候,AI 记住了什么、什么时候记的、记对了没有,依然不够清晰。
针对这一问题,PilotDeck 的 WorkSpace 给出了一种全新的答案——它不是打开一个文件夹,而是智能体的完整生存环境
打开 Memory 面板,每条记忆标着时间戳、来源路径和类型。
Project Memory 记项目核心定义,Collaboration Feedback 记你的交付偏好。

记错了,可以点进去改。记忆冲突了,直接删掉错的那条。不需要重启对话,不需要重新喂一遍偏好。
PilotDeck 还有一个叫 Dream 的机制。空闲时段,AI 在后台自动回顾整理自己的记忆,白天干活、晚上消化。
Memory 面板上能看到 Memory Dream 按钮和 Rollback Last Dream 按钮。如果 Dream 整理出了错,还能一键回滚到整理前的状态。
记忆白盒化最终带来的效果是,AI 越用越「听话」。
你的偏好沉淀在 Feedback Memory 里,看得见、调得了。不是靠 AI 猜你想要什么,是你告诉它,它白纸黑字记着,下次照做。
六边形战士,开源带走
回顾大模型浪潮,从最初惊艳世人的 ChatGPT,到像 OpenClaw 这样疯狂试探能力边界的极客玩具,Agent 的形态一直在快速迭代。
但直到今天,当「成本」、「隔离」、「记忆」这些纯工程化、偏后端的硬核痛点被 PilotDeck 逐一击破时,Agent 才算真正落地了。
凭借 PilotDeck 提供的独立工作舱、白盒化可控记忆、以及精打细算的智能路由策略,「一个人,一支 AI 军团」的设想,已经开始成真。
最关键的是,这款「六边形战士」,并没有被锁在昂贵的企业版付费墙后,而是大大方方地选择了完全开源。
不论是底层的路由逻辑,还是优雅的 Workspace 架构,所有的代码都已经毫无保留地放在了那里。
如果你也想体验这种「当甩手掌柜」的快乐,或者想扒开源码亲自魔改一套属于自己的赛博班底,现在就可以去接管你的 AI 军团了。
GitHub 传送门:
https://github.com/OpenBMB/PilotDeck
官方网站:
给他们点个 Star,然后开始你的「自动化」之夜吧!
