国思软件 - 蒸馏战争全面开打：从Meta封堵Claude与Codex开始

　　一群自研 AI 编码助手的工程师，被勒令停止使用市面上最顺手的两个工具：Anthropic 的 Claude Code 和 OpenAI 的 Codex。理由？用得太多，可能“不小心”把竞品的能力蒸馏进自家模型里。

　　这是 Meta 前几日一份流传出的内部文件所揭示的现实，该公司已对 Applied AI 部门工程师下达明确禁令：限制使用 Claude Code 和 Codex，部分涉及这些模型的工作直接被叫停。一份内部备忘录显示原因为，竞品 AI 输出的内容若混入 Meta 训练数据，将触发“与合作方的纠纷升级”（serious escalations with partner companies）。

　　当“开放”遇上“护城河”

　　Meta 这项内部新政被曝光，表面上是 IT 管理层面的常规操作，背后是更深层的战略焦虑。

　　Meta 的担忧只有一个词：蒸馏（Distillation）。

　　模型蒸馏，通俗说就是拿一个强大模型的输出去训练另一个模型。如果 Meta 工程师在编写 AI 训练代码时大量依赖 Claude Code 或 Codex，这些工具生成的代码片段、调试建议和架构方案，就有可能被无意间收入 Meta 自身的训练素材库。技术上完全可行——工程师用 Claude Code 调试一条训练脚本时，代码块流向 Anthropic 服务器，Claude 的回答则留在 Meta 本地环境。

　　内部备忘录警告，若 Claude 或 Codex 的输出最终出现在 Meta 的训练数据集里，“将直接导致与合作方的严重纠纷升级”。这句话的分量远超商业竞争层面——它直指合同条款的严肃性。OpenAI、Anthropic、Google 的服务条款均明确禁止使用模型输出来构建竞争性系统。

　　这是 AI 行业首次有大型前沿实验室因蒸馏担忧，公开限制员工使用竞品编码工具。但这只是 2026 年蒸馏战争全面升级的最新一幕。

　　回看 2026 年，蒸馏争议的烈度逐月攀升，从企业指控到国会听证，从法庭证词到白宫政策——

2 月 12 日，OpenAI 向美国众议院中国特设委员会提交备忘录，指控 DeepSeek 使用“新的、混淆的方法”蒸馏其模型训练 R1。
2 月 23 日，Anthropic 率先发难，指控 DeepSeek、月之暗面、MiniMax 三家中国公司实施“工业级蒸馏攻击”，涉及超过 2.4 万个虚假账号、1600 万次交互。马斯克随即在X平台反呛：“还好意思说别人蒸馏？”
4 月 30 日，在 xAI 诉 OpenAI 案法庭上，马斯克被问及 xAI 是否蒸馏了 OpenAI 模型来训练 Grok，给出“部分是的”（Partially yes）的回答。
5 月初，白宫发布“反蒸馏”政策备忘录，将蒸馏问题从商业纠纷上升至国家安全层面。
6 月 10 日，Anthropic 再次向美国参议院银行委员会致信，指控阿里巴巴关联方在 4 月 22 日至 6 月 5 日期间，通过约 2.5 万个虚假账户发起超过 2880 万次 Claude 交互——Anthropic 称之为“已知最大规模的蒸馏攻击”。
6 月 13 日，美国政府以国家安全为由，要求 AI 企业限制非美国公民访问顶尖大模型。
6 月 29 日，The Information 曝出 Meta 内部禁令：限制工程师使用 Claude Code 和 Codex。

　　蒸馏已经从学术概念，演变为 AI 军备竞赛中最隐蔽也最高效的武器。

　　拆解 Meta 的矛盾

　　Meta 在 AI 领域的标签始终是“开源急先锋”。从 Llama 2 到 Llama 3 再到 Llama 4，扎克伯格反复宣讲“开放 AI”的价值观。Meta 搭建了开放的生态，允许外部开发者基于 Llama 微调、二次开发，甚至鼓励商业产品落地。

　　但 Meta 对自己内部核心数据和训练流程的保护，远比外界想象中严苛。

　　这构成了一个商业悖论。面向外部开源 Llama，Meta 输出的是一套战略：通过降低 AI 技术门槛，削弱 OpenAI 和 Google 的封闭生态优势，让 Llama 成为行业事实标准。可一旦涉及自家核心模型的训练数据——那些真正决定下一代模型能力上限的高质量数据集——Meta 立刻切换到最保守的防御姿态。

　　Meta 不希望别人蒸馏它，但也不想“不小心”蒸馏了别人——前者损害竞争壁垒，后者可能引爆法律风险。一位业内观察者如此表示

　　这种双重身份在 2025-2026 年的行业环境中愈发难以维持。Anthropic 在 2025 年 8 月底修订了消费者条款，宣布用户对话数据将默认用于模型训练，但用户可选择退出（opt-out）。据 Anthropic 官方公告，这一变更于 9 月 28 日正式生效，直接引起了 Meta 法务和安全团队的高度警惕——当数据默认流向训练集，谁训练了谁的数据，在法律上变得说不清。

　　Meta 的恐惧首先来自合同层面。OpenAI、Anthropic、Google 的服务条款均明令禁止使用模型输出构建竞争性系统。若 Meta 被证实利用 Claude 或 Codex 的输出训练自家模型，备忘录中“严重升级”四个字指向的，很可能是诉讼或天价赔偿。

　　更深一层是竞争壁垒。Meta 正在自研 AI 编码助手 MetaCode。如果内部工程师一边花着 Meta 预算开发 MetaCode，一边依赖 Claude Code 和 Codex 完成关键编码工作，那 MetaCode 最终的能力究竟是 Meta 自己的，还是“借”来的？你无法证明自己的模型能力是“自己长出来的”还是“偷来的”。讲不清这个故事，损失的不仅是法律层面，更是投资者信心。

　　还有一层被忽视的现实是成本失控。Meta 内部 AI 使用量呈指数级膨胀，2026 年仅内部 AI 使用一项就将耗费数十亿美元。这迫使公司必须控制员工对外部昂贵 AI 工具的消耗，一边压缩成本，一边自研替代品。

　　最后是数据主权。当工程师用 Claude Code 调试训练脚本时，Meta 的专有代码库正通过 API 流向 Anthropic 服务器。对一家把 AI 作为核心战略的公司而言，这是不可容忍的数据泄露路径。Meta 开发 MetaCode 的部分动机，正是要把这些敏感数据流完全封闭在自家基础设施内。

　　蒸馏：AI 行业最棘手的灰色地带

　　蒸馏之所以让所有大模型公司又爱又恨，是因为它在技术上几乎不可防御。

　　OpenAI、Anthropic、Google 都在服务条款中明确禁止蒸馏，但如何证明？当一个企业的工程师团队每天产生数万次 API 调用，哪些属于“正常使用”，哪些属于“蒸馏攻击”，边界极其模糊。

　　Anthropic 在 2026 年 6 月指控阿里巴巴关联方时，列举了约 2.5 万个虚假账户和超过 2880 万次交互——这是能抓到的案例。但有多少蒸馏行为是“抓不住的”？当一家公司的员工在正常编码工作中使用竞品 AI 工具，再将生成的代码片段作为参考写入自己的训练数据——这算不算蒸馏？在法律和技术两个维度，答案可能截然不同。

　　更有意思的是 Meta 的“开源双重标准”。Meta 鼓励外部开发者用 Llama 做任何事——包括蒸馏式的微调和二次开发。当外部开发者真的用 Llama 蒸馏了 GPT-4 的能力，Meta 是受益者；而如果 Meta 自己的工程师“不小心”蒸馏了 Claude，Meta 就从受益者变成违规方。这种不对称性，暴露出“开源 AI”旗号背后的商业逻辑：开源是进攻的武器，封闭是防守的盾牌。

　　Meta 这道禁令不止是内部 IT 管理，更像一个行业宣言——AI 巨头之间的“数据护城河”正从概念走向制度。

　　其他 AI 巨头很可能跟进类似限制政策。Google、微软、Amazon 内部都在大量使用竞品 AI 工具，面临同样的蒸馏风险。Meta 一旦开了先例，合规团队没有理由坐视不理。

　　政策层面同样在加速。白宫 5 月发布“反蒸馏”政策备忘录，将蒸馏问题从企业间的合同纠纷上升至国家安全议题。6 月 13 日，美国政府更进一步，要求 AI 企业限制非美国公民对顶尖模型的访问权限。蒸馏的监管化，正在改变整个行业的竞争规则。

　　“空气间隙”企业级 AI 编码工具将迎来需求爆发。如果 Claude 和 GPT-4 这类模型无法满足企业对数据残留的合规要求，真正的赢家或许是那些能提供完全本地部署或私有云方案的 AI 公司。Meta 选择自研 MetaCode，本质上就是走这条路。对 Anthropic 和 OpenAI 而言，这是挑战也是机会——谁能更快推出让企业客户放心的部署方案，谁就能在下一阶段占据先机。

　　蒸馏不会消失。它就像互联网早期的盗版问题——技术和法律将在动态博弈中不断寻求平衡。真正值得追问的是：当蒸馏变得越来越困难之后，那些靠“借力”起家的 AI 公司，还能否找到真正的独立创新路径？

　　（本文首发钛媒体 APP，作者 | 硅谷 Tech-news，编辑 | 赵虹宇）

蒸馏战争全面开打：从Meta封堵Claude与Codex开始

我们的产品

相关链接

关于我们

联系我们