嫌xAI太乱!70人德国团队硬拒马斯克,用底层算法打脸“算力暴力美学”

  出品 | 网易智能

  作者 | 辰辰

  编辑 | 王凤枝

  一家规模仅有 70 人的德国初创公司,非常果断地将埃隆·马斯克(Elon Musk)拒之门外。

  据多位知情人士透露,马斯克麾下的 xAI 近期主动寻求合作,试图获得 Black Forest Labs 的技术授权来为 Grok 构建视觉生成能力。然而这家德国创企却给出了硬核的拒绝理由,他们直言 xAI 的工作环境过于混乱,与之合作将带来极高的运营压力与风险。

  面对拥有庞大算力集群的硅谷巨头,究竟是什么样的底层技术壁垒,让 Black Forest Labs 拥有了直接说不的绝对底气?

  一、远离硅谷喧嚣:黑森林里的隐士团队

  在旧金山莫斯康展览中心(Moscone Center)举行的 HumanX 峰会上,空气中弥漫着 AI 宇宙中心特有的焦虑与狂热。

  推开门走几步就是 OpenAI 和 Anthropic 的总部,硅谷的行业巨头们在这里交换着关于算力与模型和 AGI 的最新情报。然而聚光灯的中心,却被一家距离硅谷 8000 公里且总部设在德国黑森林的小型公司占据了。

  这家名为 Black Forest Labs(BFL)的初创公司团队只有约 70 人,但就在去年 12 月,他们以 32.5 亿美元(约合人民币 235 亿元)的估值完成了一轮 3 亿美元的融资。英伟达与 a16z 和 Salesforce 悉数入场,并与 Adobe 和图形设计平台 Canva 签署了为其提供 AI 图像生成功能的商业协议。

  更让硅谷业界关注的是一条刚被披露的行业内幕,他们拒绝了埃隆·马斯克(Elon Musk)麾下 AI 公司 xAI 的主动合作请求。

  2024 年 xAI 曾与 BFL 合作,由后者为 Grok 提供首个图像生成器。但因聊天机器人的安全保障有限,该合作引发了大量争议,并在几个月后 xAI 研发出内部模型时宣告终止。近期 xAI 试图重启合作,却被 BFL 直接拒绝。

  拒绝原因并不隐晦。知情人士称 BFL 认为 xAI 工作环境出了名的混乱,合作起来运营压力过高。与此同时这家小公司却转身与 Meta 签下了 1.4 亿美元的多年期大单,展现出极强的议价能力与行业地位。

  一位名为 Dev Anon 的开发者在社交媒体X上评价道,拒绝 xAI 以保持专注,这本身就说明了一切。70 个人凭借潜扩散模型的效率就胜过了臃肿的硅谷实验室,物理 AI 对这个团队而言是正确的一步。

  

  要理解 BFL 的底气,得先看其创始团队的技术背景。

  BFL 的三位联合创始人安德烈亚斯·布拉特曼(Andreas Blattmann)与罗宾·龙巴赫(Robin Rombach)和帕特里克·埃瑟(Patrick Esser),在 AI 学术界是扩散模型(Diffusion Models)的教父级人物。2022 年那场席卷全球的 Stable Diffusion 风暴,其核心论文的研究正是出自这几人之手。

  其中的核心灵魂人物龙巴赫(现任 BFL 首席执行官)与布拉特曼曾是德国慕尼黑大学(LMU)视觉计算小组的博士生,师从计算机视觉权威比约恩·奥默(Björn Ommer)。2021 年他们联合埃瑟发表了具有里程碑意义的论文《使用潜扩散模型进行高分辨率图像合成》,这不仅是后来 Stable Diffusion 的技术基石,更以潜扩散概念彻底解决了超高清图像生成的高昂算力瓶颈。

  随后这支被誉为扩散模型三剑客的团队被 Stability AI 招致麾下。在职期间他们主导开发了从 Stable Diffusion 1.5 到 SDXL 的全系列核心模型,将开源视觉 AI 推向了全球数亿用户的桌面。

  然而正如许多怀揣技术理想的科学家一样,他们并不满足于单纯的商业应用迭代。2024 年初在经历了 Stability AI 内部动荡与高管流失后,三位老搭档决定带着他们在潜扩散与对抗性蒸馏等领域的顶尖积累重返德国南部弗赖堡,开启了这段黑森林实验室的创业之旅。

  联合创始人布拉特曼在 HumanX 的舞台上补充道,不和所有人挤在一起可能是一笔巨大的财富。任何创办过初创公司的人都知道,很大程度上这取决于专注和研究重要事情的能力。每当我在旧金山时,我很喜欢这里,但也发现很难集中注意力,因为发生的事情太多了。

  这种专注带来的产出是极其惊人的。在资源远少于竞争对手的情况下,这促使他们采用了一种更高效的潜扩散研究路线。

  如果你最近在社交媒体上看到那些甚至能精准还原复杂指纹且文字渲染丝毫不乱的 AI 图片,背后大概率运行的就是 FLUX。在第三方机构 Artificial Analysis 的基准测试中,BFL 的图像生成器性能仅次于 OpenAI 和谷歌,稳坐全球第一梯队。

  

  二、2.8 倍效率背后的底层创新:什么是 Self Flow

  BFL 之所以能以小博大,靠的不是烧钱堆叠算力,而是精妙的算法架构。

  传统的 AI 生成扩散模型(如 Stable Diffusion 或 FLUX)通常需要依赖外部的教师模型(如 CLIP 或 DINOv2 等冻结的编码器),来提供它们自身无法学习的语义理解。但这带来了一个技术瓶颈,即一旦教师模型到了极限,扩大参数规模也不再能带来更好的结果。

  最近 BFL 发布了一项名为 Self Flow 的新技术。这标志着 AI 视觉模型可能进入了一个全新的时代。

  首先,Self Flow 打破了传统模型的语义鸿沟。

  传统模型的基础问题在于它是一个去噪任务,模型被展示噪声并被要求寻找图像,很少有动力去真正理解图像的本质。Self Flow 引入了自监督流匹配(Self Supervised Flow Matching)框架,让模型在学习生成图像的同时,同步构建对世界的物理理解。

  Self Flow 的核心逻辑非常巧妙。它通过一种被称为双时间步调度(Dual Timestep Scheduling)的机制引入了信息不对称。

  学生版模型:看到的是被严重损坏且充满噪声的数据。

  教师版模型:作为模型自身的指数移动平均(EMA)版本,看到的是更清晰的数据。

  核心任务:学生模型不仅要生成最终输出,还要预测其更清晰的自我版本看到了什么。

  这是一个自我蒸馏的过程,其中教师模型在第 20 层而学生模型在第 8 层。这种双阶段(Dual Pass)方法迫使模型产生了一种深刻的内部语义理解。

  训练数据对比最能说明其效率优势。传统训练需要 700 万个步长(Steps)才能达到基础水平,目前行业标准的 REPA 方法将其缩短到了 40 万步。

  而 BFL 的 Self Flow 仅需约 14.3 万步。

  这意味着 Self Flow 的收敛速度是目前行业标准的 2.8 倍,更是传统方法的将近 50 倍。

  BFL 通过一个 40 亿(4B)参数的多模态模型展示了这些成果,该模型在 2 亿张图像与 600 万个视频以及 200 万个音视频对组成的庞大数据集上进行了训练。在量化指标方面,Self Flow 取得了优于竞争基准的成绩,图像 FID 得分为 3.61,视频 FVD 得分为 47.81,音频 FAD 得分为 145.65。

  三、从图像生成到机器之眼:物理 AI 的商业野心

  如果 BFL 仅仅止步于图像生成,它或许只是另一个 Midjourney,但该团队的视野远不止于此。

  布拉特曼透露,视觉智能远远不止内容创作,这只是进入整个技术领域的第一个切入点。BFL 计划在今年晚些时候推出一款由其 AI 模型驱动的机器人,并明确表示团队对物理 AI 充满期待。

  这是一个巨大的技术范式转移。

  感知物理世界:通过 Self Flow 技术,AI 不再只是生成视觉图片,而是开始理解场景底层的物理和逻辑规律。

  具身智能:在 SIMPLER 模拟器的测试中,经过 RT-1 机器人数据集微调的 6.75 亿参数版本的 Self Flow 模型,在打开抽屉并放置物品等复杂的多步骤任务中保持了稳定的成功率,而标准方法通常会完全失败。

  多模态融合:传统的 AI 像是一个机械拼接的系统,视觉与音频相互独立。而 BFL 的 Self Flow 模型在训练时就实现了视频和音频的同步生成,这意味着未来的机器人不仅能具备视觉能力,还能实时理解周围环境的声音逻辑。

  目前 BFL 已经与多家硬件公司洽谈,计划将技术嵌入智能眼镜和机器人中。正如社交媒体X上的科技记者 Max Zeff 所评论的那样,BFL 尽管规模很小却能推动整个 AI 行业的进步,现在的战略重点是推进物理 AI。

  

  四、严守安全防线:底层技术团队如何应对风险评估

  在深度伪造(Deepfake)技术泛滥的时代,生成式 AI 面临着严峻的安全挑战。

  BFL 并没有因为追求性能而放弃安全审查。在针对第三方机构 Cinder 的最新评估中,FLUX.2 模型家族在严重风险漏洞上比其他主流开源模型(包括大型科技公司的旗舰模型)少了 10 倍以上。

  他们采取了严密的多层防御机制。

  预训练过滤:BFL 与互联网观察基金会(IWF)合作,过滤已知儿童性虐待材料(CSAM)及色情内容,从源头上切断有害训练数据。

  后训练抑制:团队通过多轮微调来抑制模型生成非法或有害内容的能力。这些针对性的后训练缓解措施在发布前帮助减少了 77% 至 98% 的系统漏洞。

  发布合规:虽然 BFL 拥抱开源生态,但他们坚持使用禁止非法滥用的许可来发布模型。值得一提的是,他们最轻量化且最高效的 klein 模型展现出的系统漏洞反而最少。

  这种对负责任创新的坚持,也是 Adobe 与 Canva 以及 Meta 愿意与其达成重要商业合作的信任基础。

  五、降维打击的商业模式:开源生态构筑营销漏斗

  BFL 的商业化路径同样具有极高的行业参考价值。他们并没有效仿封闭 API 的围墙花园模式,而是采取了极具战略眼光的漏斗式营销架构。

  底部开源模型:在 Hugging Face 平台上,BFL 创始团队贡献的模型下载量已超过 4 亿次。这为他们赢得了海量的社区测试反馈和庞大的开发者生态。

  

  中部低延迟 API:为应用层开发者提供即插即用的内容生成服务。

  顶部企业级授权:当大型企业想要把 FLUX 投入实际生产流程时,就需要向 BFL 购买正式的商业许可。

  目前 BFL 的收入结构大致维持在平衡状态,一半来自基于调用量的 API 产品,一半来自经典的企业级授权。这种稳健的商业策略让联合创始人龙巴赫有足够的底气应对市场波动,即使在 AI 资本降温的假设下,依然能保持公司的可持续生存与发展。

  

  六、结语:黑森林里的技术风暴

  Black Forest Labs 的迅速崛起,实质上是对当下 AI 行业暴力美学的一次无情嘲讽。

  70 个人的团队规模与 15 万个步长的收敛速度,彻底击穿了必须依靠海量算力与资金才能留在核心赛道的固有认知。

  他们极其果断地拒绝马斯克(Elon Musk)的橄榄枝,本质上是一场极其理性的商业止损。这家德国团队十分清楚,通往物理 AI 的壁垒是建立在极致的代码效率之上的,绝不能让自身的底层技术沦为巨头内部混乱管理的陪葬品。

  事实证明,当一家底层技术公司真正掌握了跨时代的算法效率时,它就不再需要去迎合硅谷的资本狂欢,而是真正拥有了让全球科技巨头排队买单的底层定价权。