北大校友Lilian Weng出镜,爆出120亿估值首个交互模型!

  新智元报道

  编辑:Aeneas KingHZ

  北大校友翁荔首次出镜,介绍了 Thinking Machines 的又一产品——交互模型!200 毫秒神同步,能听懂你的犹豫,更能实时感知协作。AI 不再是冷冰冰的回复机器,更是同频呼吸的灵魂队友。OpenAI 前高管天团,终于又有新作亮相了。

  就在刚刚,Thinking Machines 又一重磅产品——交互模型(Interaction Models)正式亮相了!

  作为 OpenAI 前安全负责人、如今 Thinking Machines Lab 的联合创始人,Lilian Weng 献出了她的出镜首秀。

  在这段备受瞩目的视频中,她展示了 AI 如何从一个「只会对话的工具」进化为「能实时协作的伙伴」。

  在视频中,Lilian Weng 提了一个要求:每听到一次动物的名字,都计数一次。

  而且,非常难得的是,即使她在喝水或思考而停止说话时,AI 也并没有打断。

  最后,当她讲完,AI 给出正确答案:鹿出现一次,绵羊一次,郊狼一次,卡皮巴拉一次。

  注意,这个交互模型可以隐式地追踪她是在思考、让步、自我纠正还是邀请回应,这个过程中,并没有专门内置的对话管理组件!

  此前,这家由前 OpenAI CTO Mira Murati 创办的明星公司,在 0 产品、0 论文的情况下,就凭借全明星创始团队完成了高达 20 亿美元的种子轮融资,由 a16z 领投,英伟达、AMD、微软等巨头跟投,估值直接冲上 120 亿美元,刷新了硅谷早期融资纪录。

  继去年 10 月发布首个开发者平台 Tinker(一个让大模型微调变得像呼吸一样简单的工具)之后,这一次,他们又交出了一份让业界刮目相看的成绩单。

  当交互带宽被拉满,AI 就不再是我们的工具,而是我们意识的实时延伸。这或许彻底改变人类与 AI 互动的方式,取得通往 AGI 路径上又一次胜利的里程碑!

  AI 时代的 iPhone 时刻终将到来!

  AI 终于学会了「插嘴」

  这一步比 AGI 更动人

  想象一下,你正在和一位博学的朋友聊天。你话还没说完,只是稍作停顿,在脑海中搜寻一个词,他便敏锐地捕捉到了你的犹豫,轻声给出了那个词。

  或者当你正兴奋地描述一个构思时,他眼神微动,在恰当的时机发出一声赞叹。

  这种「同频呼吸」的节奏感,是我们作为人类最习以为常、也最珍视的协作体验。

  但在过去两年里,尽管 AI 的智力在指数级增长,我们与它的交互却始终像是在进行一场跨世纪的电邮往来

  无论 ChatGPT 多么博学,你必须打包好你的思想,点击发送,然后屏息凝神,等待反馈。

  这种尴尬的「回合制」(Turn-based)残余,正是阻碍人机真正融合的那层障碍。

  就在刚刚,由 OpenAI 前研究主管Lilian WengMira Murati 等人领衔的初创公司Thinking Machines (TML)发布了其首个重磅成果:交互模型(Interaction Models)

  这一次,AI 终于打破了沉默,学会了「插嘴」。

  除了 Lilian Weng 展示的无缝对话管理功能之外,这个 AI 还有以下令人深刻的记忆点。

  它会根据上下文按需介入,而不仅仅是在用户说完话之后。

  用户和模型可以同时说话,这样就能实现实时翻译这类功能。

  令人惊讶的是,这个模型还具有对时间流逝的直接感知。

  在与用户对话和聆听的同时,它可以同时进行搜索、浏览网页或生成用户界面,并根据需要将搜索结果融入对话中。

  在更长的真实会话中,这些过程都会持续进行,让你感觉更像是在和它合作,而不是在提示它。

  网友们直言:这个产品太酷了。

  200 毫秒的革命

  终结 AI 的「冷场」时代

  目前,AI 模型大多患有一种「数字自闭症」。

  当你说话时,它是耳聋的——它必须等待一个名为 VAD(语音活动检测)的「外挂脚手架」告诉它:「好了,人类说完了,你现在可以处理了。」

  在它生成回复时,它又是盲目的——如果你在它说话中途指着屏幕上的 Bug 大喊,它往往听不见。

  Thinking Machines 决定拆掉这些脚手架。

  他们发布的交互模型采用了名为「时间对齐微回合(Time-Aligned Micro-Turns)」的架构。

  传统的 AI 是以「句子」或「段落」为单位处理信息的,但这个架构不再把对话看作是一块块巨大的「砖头」,而是将其切碎成200 毫秒为一个单位的微小流片段。

  这是什么概念?200 毫秒正是人类反应时间的生理极限。

  在这种频率下,输入与输出不再是先后顺序,而是交织共生

  AI 并不是等你把话说完才开始理解,而是每 200 毫秒就在进行一次「感知-反馈」的循环。

  这就像人类的神经反射系统——你还没意识到自己说错话,AI 的耳朵和大脑已经捕捉到了你的发音偏差。

  在 Lilian Weng 出镜的演示中,模型不再是被动等待指令,它能实时追踪 Lilian 何时在思考、何时在让步、何时在进行自我纠正,甚至能预判她何时邀请回应。

  技术从指令响应进化为了感知共振

  正如 Lilian Weng 所言:「人与人之间的协作,对于改善人机协作至关重要。」

  彻底告别 VAD(语音检测外挂)

  市面上几乎所有的实时语音 AI 都在用一种叫 VAD 的技术。它的逻辑是:监测静音,如果用户超过 0.5 秒没说话,就判定「用户说完了」,然后触发 AI 回复。

  这就是为什么目前的AI总是接话太慢,或者在你思考停顿时粗鲁地打断你。

  TML 的模型则是原生感知

  它不需要静音检测,它能通过你的语气、语速、呼吸声,甚至是视频里的眼神,判断你是在「思考」、「想让人接话」还是「自我纠正」。这种「懂你」的能力是长在模型骨子里的。

  「前台交互+后台思考」的双模型协作

  这是 TML 最天才的设计。

  实时交互模型(InteractionModel),就像人类的「直觉」和「反射」,负责保持在线,负责听、看、说、感知情绪,确保 200ms 的响应速度。

  异步背景模型(Background Model):就像人类的「深度思考」,负责调用工具、搜索网页、运行复杂逻辑。

  当你跟 AI 聊天时,前台模型负责陪你「扯淡」和感知,后台模型在疯狂帮你查资料。

  一旦后台有了结果,前台模型会找一个「合适的时机」(而不是粗暴打断)把结果揉进对话里。

  他们的出发点是连续的音频与视频——这些模态本质上是实时的。

  文本可以等,但实时对话不能等。通过优先针对最困难的场景进行设计,TML 团队最终得到了一种架构:它原生支持多模态、具备时间感知能力,并且能够处理跨所有模态的并发输入与输出流。

  他们不使用大型独立编码器来处理音视频,而是采用预处理尽可能少的方案。

  • 音频:以 dMel 格式输入,通过轻量级嵌入层转换

  • 图像:分割成 40×40 的图块,由 hMLP 编码

  • 音频解码:使用流头(flow head)

  所有组件与 Transformer 从零开始联合训练。

  这一切,都证明了他们官网的这句话:「好的协作,不是某个人最后给出一个完美答案。好的协作,是有人在当下真正投入、共同在场。」

  行业地震:GPT 真的被超越了吗?

  很多人会问:OpenAI 的 GPT Realtime API 不也能做到实时吗?

  答案是:逻辑完全不同。

  根据 TML 发布的技术报告,他们的TML-Interaction-Small模型(12B 活跃参数的 MoE 架构)在 FD-bench(专门衡量交互质量的基准测试)上,已经全面领先于 GPT Realtime 等竞争对手。

  核心差距在于「主控权」:

  • GPT 等模型:依然是被动的。除非你叫它,否则它不动。

  • TML 模型:具有视觉主动性(VisualProactivity)。它能主动看到世界发生了变化,并在不需要你发指令的情况下开口。

  比如你做俯卧撑,GPT 必须等你问「我做了几个」才会回答;而 TML 的模型能一边看着你做,一边自然地喊出:「1、2、3……加油,最后两个!」

  Mira Murati 的复仇,还是新征途?

  曾经,Thinking Machines 的横空出世,让整个硅谷为之侧目。

  作为前 OpenAI 的二号人物,Mira Murati 在离职后并没有选择复刻一个更大参数的 GPT,而是选择了「交互」这个切口。

  这反映了她对 AI 未来的判断:智能固然重要,但协作才是 AI 进入人类生活的入场券。

  过去三年,所有 AI 实验室都在拼谁更聪明,参数更大、推理更强、上下文更长。但几乎没有人认真想过,人类跟 AI 之间的交互界面本身,就是一个巨大的瓶颈。

  如果 AI 永远需要人类去「伺候」它的 Prompt,去忍受它的延迟,那它永远只是个好用的计算器。只有当 AI 能够「感知时间」、「感知犹豫」、「自然插嘴」时,它才真正具备了人的属性。

  Thinking Machines 选择的行业路线告诉我们:AI 的下一个战场,不在参数表上。

  你觉得,他们押对方向了吗?

  参考资料:

  https://x.com/thinkymachines/status/2053938892152435174

  https://x.com/miramurati/status/2053939069890298321

  https://thinkingmachines.ai/blog/interaction-models/