C罗刚头球破门,AI解说脱口而出!全模态实时流太狠了

  新智元报道

  只会聊天的 Agent 要下岗了!AI 盯直播自己解说世界杯,懂战术还会切粤语,背后竟藏着一个流式 Agent 引擎。

  2026 世界杯,正打得火热!

  全球几亿人盯着同一颗滚动的足球,等一个进球,等一句呐喊。

  41 岁的C罗第六次踏上世界杯赛场,38 岁的梅西带着卫冕冠军阿根廷继续追梦,哈兰德第一次站上世界杯就杀红了眼,姆巴佩则剑指世界杯历史射手王。

  绿茵场上每个瞬间都在发生故事,每个进球都让世界屏住呼吸。

  但你有没有想过,要是让一个 AI 来实时解说这场比赛,它得同时干成几件事?

  它得看懂此刻画面里「谁在头球」,得记住「几十分钟前谁踢丢了一脚」,还得调出「上一场比赛、甚至这个球星近几年的数据」。

  把这三层信息:现在、刚才、过去,对齐到同一根时间轴上,再用一种你喜欢的方言、喜欢的风格讲出来。

  这种极限背后,到底是一套什么样的系统在运转?

  把直播现场,炼成实时智能

  答案,就在今天召开的 Flink Forward Asia (FFA) 2026 大会上。

  阿里云正式宣布,Apache Flink 3.0 全面进入 Agentic Streaming For AI 时代,并推出全模态数据流处理能力。

  这是业界第一次,把视频、音频、图像、文本这四类数据,统一放进同一条流式 pipeline 里调度,让 AI 能够实时感知、实时理解、实时回应。

  可以让 AI 实时解说世界杯的 demo,正是这套能力的注脚。

  一场直播画面,是怎么在 Flink 这条流水线上,一步步变成实时解说的。

  第一步,实时抓帧、实时看懂。

  Flink 实时抓取直播画面里正在发生的信息,做实时多模态数据处理,理解此刻屏幕上发生了什么。

  谁接了球?谁完成了传球?这脚打没打进?

  这一步既可以调用大模型 API,也可以跑 GPU 本地部署的全模态模型,把「看画面」这件吃算力的活儿,压在 GPU 上高效完成。

  第二步,喂给大模型、生成解说词。

  理解完的信息被实时喂进大模型,由它推理出一句完整的解说——

  谁、在什么时刻、做了什么、造成了什么结果。

  解说词一旦成型,输出的音色还能随手切换。

  嫌普通话解说不带劲?它下一秒就能换成一段地道的粤语;亦或是,换上「猴哥」的音色,实时评价C罗等球员的表现。

  第三步,沉淀成上下文、随时回看。

  所有这些信息,都会在 Flink 里沉淀为实时上下文,彼此之间做交叉分析。

  于是「半场总结」、「精彩镜头集锦」这类需要跨时间回溯的能力,第一次有了水到渠成的实现路径——因为该记住的,系统一直都在记。

  视频里,那句「两回合都是大场面先生」的跨场次分析,则同时调动了两层记忆。

  大模型把两层记忆一融合,才说得出那句让人起鸡皮疙瘩的话。

  如果你在现场看,唯一能察觉到它「在工作」的痕迹,是大概 25 秒的延迟。不是说流式,那这个延时又是哪里来的?

  其中的 15 秒花在「攒帧」上,视频流得一秒抽一帧,把关键帧攒够一段才能给模型。

  剩下 10 秒是大模型自己琢磨:VL 模型先看懂视频,LLM 再写解说词,接着做风格转换(比如切粤语),中间还卡着一道合规检查。

  而当前大部分的 VL 模型的处理延迟都相对较大,这才导致了整条链路上的部分延时,如果是流音频模型这部分的延时就会少很多。

  好几个小 Agent 串成一条链,各干各的,一个干完递给下一个。等链子跑顺了,开头那十几秒的延迟就没了。

  回头再看这个 AI。它在看球,在解说,在回忆,在切粤语——全程没有一个人戳它一下、问它一句。事件流到了,它就动。

  这跟过去三年我们以为的「Agent」,已经不是一个东西了。

  这跟会聊天的 AI,不是一个东西

  之前,ChatGPT、Gemini 等聊天 AI,底层都是一套:你问一句,它答一句。

  最近上线的 Claude Tag,则往「更主动」走了一大步,把 AI 嵌进人的工作流。可它终究还是得有人 @ 那么一下。

  而 Flink 要做的,是把这层「等人开口」的壳整个掀掉,转向了「流式 Agent」新路。

  Flink 这次给流式 Agent 下的定义很清楚,叫 Event-Driven Agent(事件驱动型 Agent)。

  它和对话式 Agent 的根本差别,可以拆成四点:事件触发对人发问响应、7×24 永远在线对一问一答即停、自主决策对被动响应、记忆自维护对靠人喂上下文。

  如果问哪一种方式,更接近「AI 真正替代人干活」的终局,答案应该是后者。

  真正撑起一个产业的,从来不是会聊天的助手,是会自己上班的员工。

  干这件事的主角,是 Apache Flink。如果你不在技术圈,可能没听过这个名字。但全球流计算这一块,它就是事实标准。

  Netflix 的实时推荐、Uber 的行程调度、阿里双 11 零点的洪峰——背后跑的都是 Flink。国内你叫得上名字的互联网大厂,字节、美团、快手,它的实时数据管道里大概率躺着同一个引擎。

  还有一层背景。这么一个统治全球的 Apache 顶级项目,背后最核心的贡献者和推动者,是中国团队——阿里云实时计算 Flink 团队。

  Apache 基金会里,由中国团队主导、还做到了全球第一梯队的基础软件项目,Flink 是凤毛麟角的一个。每年一度的 Flink Forward Asia 大会,是亚太流计算圈的旗舰盛会。

  就是这样一个已经在全球跑了十几年、被验证过无数次的工业级引擎,这次把自己彻底重做了一遍。从「算报表的实时计算框架」,跳到了「养 Agent 的流式智能体基座」。

  卡了三年,这次一次解开

  流式 Agent 这个想法,其实并不新。

  「让 AI 持续运转、持续感知、自主决策」——这几乎是所有人最早对 Agent 的想象。问题从来不是「想不想做」,而是「做不出来」。它卡在一个非常具体的、又非常底层的地方:数据。

  在这套 AI-Driven 的新逻辑面前,现有主流方案暴露出三道硬伤。

  第一,全模态数据散落一地。

  Agent 要感知的世界,早就不是表格和数字,是文本、图像、音频、视频的混合流。可它们躺在完全不同的管道里,对不齐时间——AI 拿到手的,是一堆「拼图碎片」。

  第二,批处理撑不住「永远在线」。

  一次性打包 7 天数据喂模型,这套离线训练的老办法没问题。可面对7×24 源源不断的事件流,「攒一批、跑一批」立刻力不从心——等数据攒够、模型跑完,该发生的早发生了。

  第三,关键信号被淹没。

  数据攒成一大坨一起喂,AI 的注意力就被稀释了。一次异常交易、一个突然的进球、一台机器的异常心跳,淹没在海量数据里。系统用得越久,反应越慢,越笨重。

  结果就是:大模型再强,也白搭。

  Flink 3.0 彻底告别「打补丁」式的妥协,从底层完成重构。

  对应第一道,全模态数据对不齐/Flink 3.0 给的是全模态 Agentic Streaming Engine。

  它把视频、音频、图像、文本第一次统一进了同一条流式 pipeline。不是各自处理后拼起来,是从一开始就在同一根时间轴上调度。

  事件时间、状态管理、精确一次这些流计算的老本行,和多模态理解、大模型推理这些新需求,对齐到同一根轴上。

  AI 拿到的不再是拼图碎片,是完整、连贯、对齐的世界。CPU 和 GPU 混合调度,把整条流水线的资源打满。

  对应第二道,批处理撑不住永远在线。这本来就是 Flink 的主场。

  Flink 是纯流式引擎,从第一天起处理的就是「无限流」,不是攒成批的存量数据。同样是 pipeline 架构,Spark、Ray 处理的是躺在对象存储里的批量数据,而 Flink 处理的是摄像头视频流、直播流、消息队列里永不停止的流。

  关键就在这:在线计算、实时把大模型能力集成进去,才是能释放更高业务价值的所在。离线批量也能用 AI,但只有实时在线,才能让 AI 真正嵌进生产流程。

  对应第三个道,关键信号被淹没。Flink 用 Streaming Agent-OS 来解。

  它不只让 Agent 看到数据,还给 Agent 配了一套「操作系统」Flink 孵化了 Flink Agens 项目,包含 Agent DSL、Agentic 算子,外加 Flink 原生的流处理、状态管理、故障容错。

  Agent 不用每次都重新理解一遍世界。它的短期记忆和长期记忆由这套系统维护。

  7x24h,永远在线的 Agent

  Agent 要永远在线,它背后的数据底座也得永远在线。

  这就是 FFA2026 上同时发布的 Agentic Lake。

  Apache Paimon 2.0 负责全模态数据的沉淀和统一管理,Apache Fluss 1.0 负责实时数据的流转和 Agent 上下文供给,两者双向自动互通,构成湖流一体。

  至此,一个能7×24 自转的流式 Agent,第一次有了完整的工程化路径。

  全模态引擎让它「看得清」,Streaming Agent-OS 让它「记得住、想得通」,Agentic Lake 让它「饿不着」。

  要理解这次升级的分量,得先看清楚一件事:在 AI 时代,数据处理这件事本身的命题,已经换了。

  过去十几年,数据基础设施服务的是 BI——做报表、跑分析、算指标。它处理的对象,是订单、点击、日志这类结构化数据,整整齐齐躺在数据库里。

  驱动这一切的逻辑,是BI-Driven:人来提问,系统给出图表。

  但今天,喂给 AI 的「燃料」变了。

  在 AI Agent 时代,进来的数据变成了图像、语音、PDF 文档、摄像头信号、车联网等全模态数据。

  这意味着数据计算的驱动力,已经从BI-Driven 转向了 AI-Driven

  若数据底座如果还停留在「为报表服务」的旧范式里,AI 就只能困在 Demo 阶段。

  这恰恰是 Flink 3.0 升级之后,所重塑的底层逻辑。

  它会在哪里先上岗

  流式 Agent 不是空中楼阁,已经有具体场景在跑。

  最先跑出生产力的,是智能运维。

  企业的 IT 系统里,机器心跳、底层日志、应用信息、业务事件每秒钟都在海量涌出,天然就是事件密集的战场。

  过去靠运维专家盯,现在嵌入 AI 能力之后,系统可以自己看 matrix、看 log,判断要不要做负载均衡、换机器、提前预警。

  直播监控是另一个天然场景。海量直播流涌进来,系统不仅能做内容监控,甚至能给导播实时提供智能化建议。

  还有广告实时定价。用户点击、商品浏览、竞价波动,每一个事件都在实时产生。

  把它们实时捕获、分类,沉淀成短期与长期上下文,模型就能实时判断广告要不要重新定价、怎么投放。

  这里还藏着一个被很多人误解的点:AI 来了,规则就该被推倒?

  模型驱动和规则驱动,是融合模式,不是完全替换把历史推倒。

  数据量太大,全交给大模型不现实;更聪明的做法,是用规则做预处理与初筛,再让 AI 对剩下的部分做加权式的增强判断。

  甚至,规则本身都可以由大模型动态生成、持续迭代。

  这也是流式 Agent 能比对话式 Agent 更快走进生产场景的原因之一。它不要求你推翻现有的规则系统,它要求的是把你现有的事件流,接进一条能让 AI 实时介入的管道。

  以前我们以为,Agent 就是 ChatGPT 那样会聊天的东西。Flink 3.0 提示的是另一种可能——一个不靠人发问、靠自己运转起来的 AI。

  它不是更强的工具。它是第一次,自己活了起来。