国思软件 - 北大校友Lilian Weng出镜，爆出120亿估值首个交互模型！

　　新智元报道

　　编辑：Aeneas KingHZ

　　北大校友翁荔首次出镜，介绍了 Thinking Machines 的又一产品——交互模型！200 毫秒神同步，能听懂你的犹豫，更能实时感知协作。AI 不再是冷冰冰的回复机器，更是同频呼吸的灵魂队友。OpenAI 前高管天团，终于又有新作亮相了。

　　就在刚刚，Thinking Machines 又一重磅产品——交互模型（Interaction Models）正式亮相了！

　　作为 OpenAI 前安全负责人、如今 Thinking Machines Lab 的联合创始人，Lilian Weng 献出了她的出镜首秀。

　　在这段备受瞩目的视频中，她展示了 AI 如何从一个「只会对话的工具」进化为「能实时协作的伙伴」。

　　在视频中，Lilian Weng 提了一个要求：每听到一次动物的名字，都计数一次。

　　而且，非常难得的是，即使她在喝水或思考而停止说话时，AI 也并没有打断。

　　最后，当她讲完，AI 给出正确答案：鹿出现一次，绵羊一次，郊狼一次，卡皮巴拉一次。

　　注意，这个交互模型可以隐式地追踪她是在思考、让步、自我纠正还是邀请回应，这个过程中，并没有专门内置的对话管理组件！

　　此前，这家由前 OpenAI CTO Mira Murati 创办的明星公司，在 0 产品、0 论文的情况下，就凭借全明星创始团队完成了高达 20 亿美元的种子轮融资，由 a16z 领投，英伟达、AMD、微软等巨头跟投，估值直接冲上 120 亿美元，刷新了硅谷早期融资纪录。

　　继去年 10 月发布首个开发者平台 Tinker（一个让大模型微调变得像呼吸一样简单的工具）之后，这一次，他们又交出了一份让业界刮目相看的成绩单。

　　当交互带宽被拉满，AI 就不再是我们的工具，而是我们意识的实时延伸。这或许彻底改变人类与 AI 互动的方式，取得通往 AGI 路径上又一次胜利的里程碑！

　　AI 时代的 iPhone 时刻终将到来！

　　AI 终于学会了「插嘴」

　　这一步比 AGI 更动人

　　想象一下，你正在和一位博学的朋友聊天。你话还没说完，只是稍作停顿，在脑海中搜寻一个词，他便敏锐地捕捉到了你的犹豫，轻声给出了那个词。

　　或者当你正兴奋地描述一个构思时，他眼神微动，在恰当的时机发出一声赞叹。

　　这种「同频呼吸」的节奏感，是我们作为人类最习以为常、也最珍视的协作体验。

　　但在过去两年里，尽管 AI 的智力在指数级增长，我们与它的交互却始终像是在进行一场跨世纪的电邮往来。

　　无论 ChatGPT 多么博学，你必须打包好你的思想，点击发送，然后屏息凝神，等待反馈。

　　这种尴尬的「回合制」（Turn-based）残余，正是阻碍人机真正融合的那层障碍。

　　就在刚刚，由 OpenAI 前研究主管Lilian Weng与Mira Murati 等人领衔的初创公司Thinking Machines (TML)发布了其首个重磅成果：交互模型（Interaction Models）。

　　这一次，AI 终于打破了沉默，学会了「插嘴」。

　　除了 Lilian Weng 展示的无缝对话管理功能之外，这个 AI 还有以下令人深刻的记忆点。

　　它会根据上下文按需介入，而不仅仅是在用户说完话之后。

　　用户和模型可以同时说话，这样就能实现实时翻译这类功能。

　　令人惊讶的是，这个模型还具有对时间流逝的直接感知。

　　在与用户对话和聆听的同时，它可以同时进行搜索、浏览网页或生成用户界面，并根据需要将搜索结果融入对话中。

　　在更长的真实会话中，这些过程都会持续进行，让你感觉更像是在和它合作，而不是在提示它。

　　网友们直言：这个产品太酷了。

　　200 毫秒的革命

　　终结 AI 的「冷场」时代

　　目前，AI 模型大多患有一种「数字自闭症」。

　　当你说话时，它是耳聋的——它必须等待一个名为 VAD（语音活动检测）的「外挂脚手架」告诉它：「好了，人类说完了，你现在可以处理了。」

　　在它生成回复时，它又是盲目的——如果你在它说话中途指着屏幕上的 Bug 大喊，它往往听不见。

　　Thinking Machines 决定拆掉这些脚手架。

　　他们发布的交互模型采用了名为「时间对齐微回合（Time-Aligned Micro-Turns）」的架构。

　　传统的 AI 是以「句子」或「段落」为单位处理信息的，但这个架构不再把对话看作是一块块巨大的「砖头」，而是将其切碎成200 毫秒为一个单位的微小流片段。

　　这是什么概念？200 毫秒正是人类反应时间的生理极限。

　　在这种频率下，输入与输出不再是先后顺序，而是交织共生。

　　AI 并不是等你把话说完才开始理解，而是每 200 毫秒就在进行一次「感知-反馈」的循环。

　　这就像人类的神经反射系统——你还没意识到自己说错话，AI 的耳朵和大脑已经捕捉到了你的发音偏差。

　　在 Lilian Weng 出镜的演示中，模型不再是被动等待指令，它能实时追踪 Lilian 何时在思考、何时在让步、何时在进行自我纠正，甚至能预判她何时邀请回应。

　　技术从「指令响应」进化为了「感知共振」。

　　正如 Lilian Weng 所言：「人与人之间的协作，对于改善人机协作至关重要。」

　　彻底告别 VAD（语音检测外挂）

　　市面上几乎所有的实时语音 AI 都在用一种叫 VAD 的技术。它的逻辑是：监测静音，如果用户超过 0.5 秒没说话，就判定「用户说完了」，然后触发 AI 回复。

　　这就是为什么目前的AI总是接话太慢，或者在你思考停顿时粗鲁地打断你。

　　TML 的模型则是原生感知。

　　它不需要静音检测，它能通过你的语气、语速、呼吸声，甚至是视频里的眼神，判断你是在「思考」、「想让人接话」还是「自我纠正」。这种「懂你」的能力是长在模型骨子里的。

　　「前台交互+后台思考」的双模型协作

　　这是 TML 最天才的设计。

　　实时交互模型（InteractionModel），就像人类的「直觉」和「反射」，负责保持在线，负责听、看、说、感知情绪，确保 200ms 的响应速度。

　　异步背景模型（Background Model）：就像人类的「深度思考」，负责调用工具、搜索网页、运行复杂逻辑。

　　当你跟 AI 聊天时，前台模型负责陪你「扯淡」和感知，后台模型在疯狂帮你查资料。

　　一旦后台有了结果，前台模型会找一个「合适的时机」（而不是粗暴打断）把结果揉进对话里。

　　他们的出发点是连续的音频与视频——这些模态本质上是实时的。

　　文本可以等，但实时对话不能等。通过优先针对最困难的场景进行设计，TML 团队最终得到了一种架构：它原生支持多模态、具备时间感知能力，并且能够处理跨所有模态的并发输入与输出流。

　　他们不使用大型独立编码器来处理音视频，而是采用预处理尽可能少的方案。

音频：以 dMel 格式输入，通过轻量级嵌入层转换
图像：分割成 40×40 的图块，由 hMLP 编码
音频解码：使用流头（flow head）

　　所有组件与 Transformer 从零开始联合训练。

　　这一切，都证明了他们官网的这句话：「好的协作，不是某个人最后给出一个完美答案。好的协作，是有人在当下真正投入、共同在场。」

　　行业地震：GPT 真的被超越了吗？

　　很多人会问：OpenAI 的 GPT Realtime API 不也能做到实时吗？

　　答案是：逻辑完全不同。

　　根据 TML 发布的技术报告，他们的TML-Interaction-Small模型（12B 活跃参数的 MoE 架构）在 FD-bench（专门衡量交互质量的基准测试）上，已经全面领先于 GPT Realtime 等竞争对手。

　　核心差距在于「主控权」：

GPT 等模型：依然是被动的。除非你叫它，否则它不动。
TML 模型：具有视觉主动性（VisualProactivity）。它能主动看到世界发生了变化，并在不需要你发指令的情况下开口。

　　比如你做俯卧撑，GPT 必须等你问「我做了几个」才会回答；而 TML 的模型能一边看着你做，一边自然地喊出：「1、2、3……加油，最后两个！」

　　Mira Murati 的复仇，还是新征途？

　　曾经，Thinking Machines 的横空出世，让整个硅谷为之侧目。

　　作为前 OpenAI 的二号人物，Mira Murati 在离职后并没有选择复刻一个更大参数的 GPT，而是选择了「交互」这个切口。

　　这反映了她对 AI 未来的判断：智能固然重要，但协作才是 AI 进入人类生活的入场券。

　　过去三年，所有 AI 实验室都在拼谁更聪明，参数更大、推理更强、上下文更长。但几乎没有人认真想过，人类跟 AI 之间的交互界面本身，就是一个巨大的瓶颈。

　　如果 AI 永远需要人类去「伺候」它的 Prompt，去忍受它的延迟，那它永远只是个好用的计算器。只有当 AI 能够「感知时间」、「感知犹豫」、「自然插嘴」时，它才真正具备了人的属性。

　　Thinking Machines 选择的行业路线告诉我们：AI 的下一个战场，不在参数表上。

　　你觉得，他们押对方向了吗？

　　参考资料：

　　https://x.com/thinkymachines/status/2053938892152435174

　　https://x.com/miramurati/status/2053939069890298321

　　https://thinkingmachines.ai/blog/interaction-models/

北大校友Lilian Weng出镜，爆出120亿估值首个交互模型！

我们的产品

相关链接

关于我们

联系我们