「龙虾」从屏幕里爬出来了!现场复刻老板发言,连语调都一模一样

  新智元报道

  编辑:好困桃子

  40 克 AI 眼镜变身 Agent 之眼,数字分身定制分身。当 Agent 爬出屏幕走进物理世界,这场关于生产力的降维打击,真的不只是说说而已。

  这几个月,硅谷和中文 AI 圈都在流传一个心照不宣的暗号,「养龙虾」。

  一个 Agent,7x24 小时不睡觉,自主开浏览器、写代码、抓数据、交付成果……

  这些「龙虾」一度被视为未来的生产力神话,然而,它们所有的演进路径,都指向同一个终点:

  怎么在一块屏幕里,把活干得更猛一点。

  所谓的「AI 员工」,本质上是一个被钉死在屏幕背后的同事。下一代 Agent,究竟该如何突破玻璃的束缚?

  4 月 15 日,广交会开幕当天,有人试着把这道坎跨过去。

  一副 40 克的眼镜;一颗装进机器人脑袋里的「超脑」;一个能跨设备接力干活的桌面搭子;再加上底层重新升级的 AstronClaw 平台,整套「Claw 全家桶」一次性砸了下来。

  佩戴讯飞 AI 眼镜的多模交互场景

  干这件事的是讯飞。

  所有这些硬件、软件、模型、平台的更新,都指向了同一件事——

  把 Agent 从屏幕里拽出来,让 AI 真正触手可及!

  这一次,「龙虾」冲出了屏幕

  要做到这一点,第一步,是先给「龙虾」一副能够看见世界的身体。

  硬件,才是 Agent 走出屏幕的第一道门。

  讯飞 AI 眼镜:Agent 有了眼睛

  讯飞翻译硬件家族里最轻的那一块,是一副眼镜。

  讯飞 AI 眼镜整机,仅 40 克。

  作为全球最轻的双目单色显示多模态眼镜,它比市面主流产品(50 克以上)减重约 20%。

  重量只是入场券。讯飞 AI 眼镜搭载的 GlassClaw,才真正改变了 Agent 的输入方式。

  你看到什么,它就能识别和理解;你听到什么语言,它就实时翻译。

  跨语言方面,中英首响快至 2 秒,AR 翻译目光锁定 2 秒就能自动出译,加上 18 个离线语种,基本覆盖了广交会这种跨国采购场景的刚需。

  更硬的技术活,藏在降噪方案里。讯飞 AI 眼镜首创了「唇动识别」多模态降噪方案,靠5+1 麦克风阵列加骨传导,最远拾音距离 8 米。把声源定位从「听哪个方向」变成「看谁的嘴在动」。

  发布会现场,新华社记者徐弘毅戴上讯飞 AI 眼镜,在科大讯飞展台跑了一段相当能打的实操。

  展台老师在讲解讯飞 AI 翻译耳机时,讯飞 AI 眼镜同时捕获语音和图像。多模态数据传到 AstronClaw,然后给徐弘毅补上了一段背景——

  这款耳机是全球首款骨导加气导的开放式专业翻译耳机。

  去年在上海和迪拜两地同步发布,当时还做了一场跨国翻译电话演示。

  最关键的环节在最后。徐弘毅扶了一下眼镜,说了一句话——

  「根据我刚刚逛展的过程,生成相关素材发送到微信」。

  GlassClaw 把展区一路看到、听到的内容整理成图文素材,发到了展台工作人员的微信里。从看到、认知、理解、思考到输出,一口气搞定全流程。

  当 Agent 的输入从屏幕里的文字,变成眼前的真实世界,人机交互的范式就被重写了。

  Agent 不再需要你一字一句地把世界描述给它听,它自己就能看。

  Claw 直控机器人,送咖啡热舞震撼

  如果 GlassClaw 是 Agent 的眼睛,Claw 就是 Agent 的神经中枢。

  主持人直接在 AstronClaw 下达一句指令:Guide 01,给我送杯咖啡。

  然后,AstronClaw 操控讯飞 Guide 01 机器人,提着咖啡慢慢走向台前,递给了主持人。

  更惊艳的还在后头。Guide 01 把舞台交给了它的「WallEX」和「小弟 Nova」。

  其中,WallEX 是升级了 Claw 能力的智慧家居中控屏。Nova 是配套氛围灯,会根据场景自动调色,主打家居里的浪漫氛围。

  现场,机器人用一支舞,把这一组合的感染力瞬间拉满。

  这次 Claw 接入 Guide 01,瞄准的是机器人行业一个老大难:语音交互和动作执行严重割裂。

  过去机器人听懂一句话和做成一件事之间,隔着一层厚厚的代码。

  一句简单指令往往要被拆成一连串动作,稍微复杂一点开发成本就指数级往上窜。

  Claw 打通了这一层。

  它把 AstronClaw 的任务编排能力、讯飞机器人超脑平台、星火大模型、多模态交互技术深度融合,跑出的是一条完整链路:

  自然交互理解 → 多传感器融合 → 自主任务规划 → 物理端执行

  通过「软硬一体」模组的形式,任何机器人厂商都可以快速集成。

  这等于给整个行业交了一份标准答案。机器人厂商不用再自己啃 Agent 这块骨头,Claw 就是一个即插即用的 Agent 大脑模块。

  家居场景的智能终端怎么接进 Agent 生态,讯飞给的答案和机器人是同一个,都接进同一套任务编排和上下文里。

  「眼睛」和「手脚」都有了,Agent 已经能看、能动。

  但真正要把活干完、干好,还得有一套能把任务串起来、记得住上下文的软件中枢。

  它叫 AstronClaw。

  聊天框装不下的活,AstronClaw 接住了

  过去的 AstronClaw 更像一个能干的网页助手,在浏览器里派活,云端把活干完。

  这套「养龙虾」模式 3 月上线之后迅速跑通。订阅从 16.8 元/月起步,企业级 Agent 的门槛被压到了一杯咖啡钱。

  这里顺带说一件事。开篇提到的那个 OpenClaw,中国信通院 4 月刚出了一份《OpenClaw 类智能体部署风险管理指南》。行业开始给「养龙虾」这件事划安全底线了。

  最重要的是,科大讯飞成为首批通过自检的厂商之一。

  这在一定程度上证明了 AstronClaw 在安全架构、任务执行隔离、数据处理规范等方面,已经具备了进入企业核心场景的能力。

  不过,聊天框有聊天框的天花板。

  一个任务从手机切到电脑再切到会议室,Agent 就断片,每次交互都是一次重新开始。这是所有对话界面智能体绕不开的坎。

  这一次,AstronClaw 的升级,直接动了底层架构。

  第一刀砍在端云协同。

  复杂任务不再绑在单一设备上,云端负责思考和规划,终端负责现场执行。

  一个任务从办公本发起,可以在手机上继续推进,再推到电脑收尾,换设备不断片。

  第二刀砍在跨端记忆同步。

  Agent 记得自己走到了哪一步,也记得你上次提过什么要求。

  用讯飞自己的话说,这是「像接力赛一样持续推进」。Agent 从一次性聊天,变成了一条不会断的任务流。

  还有一刀砍在生态接口。

  硬件连接协议这次一起开放,不同类型的智能设备都能快速接入 AstronClaw。前面那只机器人和那副眼镜,背后跑的就是这套协议。

  目前,讯飞把第一台跨设备接力的 Agent 装在自家办公本 X5 上。

  发布会上,主持人对办公本说一句话,刚才在 AstronClaw 云端生成的逛展攻略和个人行程就同步了过来。

  Loomy:上传一张照片,造一个数字分身

  AstronClaw 是云端那只龙虾,Loomy 是钻进你电脑里的那只。

  3 月发布的 Loomy 已经跑通了基本能力。目录级隔离让 AI 不越雷池半步。

  QQ、飞书、钉钉、微信四大 IM 接入,手机就是远程控制台,首发期赠送积分,新用户无门槛就能上手。

  这一次的升级,Loomy 要从桌面工具变成长期协作伙伴。

  会议中自动整理纪要、安排日程、跟进任务进度这些事,从「你得打开软件操作」变成了「你开口它去做」。

  更有趣的,是这次新加的 Buddy。

  只需上传一张照片,加一段极具个人性格特色、工作风格的文本描述,就能量身定制一个外貌、风格相似的数字分身。

  它可以成为你的「工作搭子」,更懂你自己,并处理一系列工作任务。

  这不,现场主持人万里怼脸演示「万里 Loomy」全程搭建过程,她把自己平时一些特点扔给 Loomy:

  喜欢回复 111、不喜欢拖拉、做事责任感强、容易焦虑愤怒

  它会调用 soul-creator 技能,把万里的说话风格、特点、价值观写入 soul 档案中,最终生成一个万里 Loomy。

  接下来万里现场出了个考题:「领导开会三四十分钟还没进入正题,怎么打断?」万里 Loomy 一口气给了五个高情商方法,最后一条是「实在不行就忍」。另一位主持人马高听完插了一句「咱俩共用一个老板」,全场笑场。

  这就是 Buddy「懂你」的真实样子,它给你的不是一个标准答案,是一个像你自己会写的答案。

  而且,在 Loomy 中可以创建多个 Buddy,处理各种各样的工作任务。

  比如,讯飞刘庆峰董事长没来现场,让已创建好的刘总 Buddy,以其风格生成一段 40s 发言,给现场打打气。

  这种真实感,只能用「震撼」形容。不仅声音像素级还原,竟连演讲中标志性语调、鼓舞风格都与刘庆峰本人如出一辙。

  合成语音里那句「用人工智能建设美好世界的使命」,全场静了几秒。

  有了 Loomy 数字分身,真正的需求还是让它去完成手里的案头工作,比如 PPT、视频、宣传文案。

  现场,万里 Loomy 一口气调用了三个原生 Skill,把广交会的案头活全清了——

  • 智文 Skill 写了一份广交会复盘 PPT。据现场介绍,智文 Skill 的原生应用已经突破 1000 万用户。

  • 智作 Skill 做了一条围绕讯飞 AI 眼镜的宣传视频,用的是万里自己的数字分身做出镜。

  • 绘文 Skill 写了一篇广交会的报道文章,并在两个第三方自媒体平台预发布等待审核。

  可以看到,以上这些都是「通用型」案头任务。在广交会上,最典型的还是采买任务。

  招采 Claw 抓出围串标,陪练 AI 赛博实战

  别急,这里就轮到企业级智能体出场了。

  最重要的「招采 Claw」,深度融合了 AstronClaw、SkillHub 和招采知识库的招采助手。

  发布会上,主持人把整套招采文件一口气全部上传,招采 Claw 自动调用文件解析 Skill。

  它先把复杂标书规整化处理,方便后面定位每一处细节。然后像专家一样,开始检测围串标风险。很快抓出两家公司的标书里用了同一张图片,判定为围串标,取消两家资格。

  接下来是资质评审。招采 Claw 发现一家公司的工程资质是乙级,但招标文件明确要求甲级,排除。

  最后两步,是初评和复审。招采 Claw 这里没有派单个 Agent 上场,而是拉起了一个 Agent Team。

  每家入围企业分配一个子 Agent 专门跟进,主 Agent 负责统筹。复审环节再细分。

  业绩评审、施工组织、项目团队、环境保护各派一个专精 Agent,互不干扰、并行推进,最后由主 Agent 合稿出报告。

  可不要小瞧这一过程。发现相似图表、资质不合格等细节,以往要耗费多位专家时间和精力。招采 Claw 把专家从繁琐活里解放出来,时间花在决策、谈判、把控风险上,效率成倍提升。

  这是 Agent Team 多智能体协同第一次跑在一个真实的企业级场景里,也是这次发布会最炸的卖点之一。

  职场中,通常对打工提出了更高的要求:深谙行业各种 know-how,成为多技能人才。

  这不,陪练 skill,企业员工专业培训的「赛博老师」能救你。

  它调用了「星火陪练」的技能,与 Claw 一起生成一个真实的模拟场景。

  主持人在「招采讨价还价」的模拟里挑了个独家供应商「何总」,十几年经验,一上来就咄咄逼人。

  两轮交锋下来,最终以8% 让价、60 天账期、合同写最低采购量收尾,AI 给的成绩是 90 分。

  评审报告还按节奏掌控力、风格控制力等维度给出了详细分析。

  招采陪练做的是新人训练。AI 模拟供应商和采购员对话,把几个月实战压缩成几十轮对话。

  SkillHub:企业技能的「军火库」

  以上提到的陪练 Skill,这么多讯飞 Skill 可以在哪里用得上?

  它们全部都放在了技能仓库—— Astron SkillHub 中。它是管理 AI 技能的「企业版 NPM」,国内首个企业级自托管的开源技能平台。

  技能、数据、日志都留在企业自有环境里,数据主权完全在自己手里。

  企业里真正值钱的东西,往往是资深员工踩过坑沉淀下来的 prompt、脚本文件以及工作流。

  这些东西过去散落在聊天记录、笔记和模板文件里,人一走,流程也跟着走。

  SkillHub 做的就是把这类工作流打包成版本化、权限化、可审计的技能,存进公司的私有仓库。

  新员工一个命令就能调用。

  到现在,SkillHub 上的开源 Skill 已经超过 3000 个,由海内外开发者共同维护。

  生态兼容性上,SkillHub 完全兼容 ClawHub CLI 协议。一次发布,AstronClaw、OpenClaw、Loomy 都能一键下载、安装和调用。

  到这里,「Claw 全家桶」的全貌已经摆出来了——

  GlassClaw 在物理世界负责感知和执行,WallEX 覆盖家居场景; AstronClaw 在云端调度任务,Loomy 在桌面当协作伙伴和数字分身,SkillHub 把企业的技能资产沉淀下来。

  市面上,几乎所有厂商都在说自己软硬一体,但真能做到的没几家。

  原因很简单,「堆料」不难,难的是往下打得穿。

  讯飞的差异化不是「做得全」,是「每一层都是自己的」。

  从自研大模型、自建平台、自造硬件、自养开发者生态,这四件事但凡缺一件,这根主干就断了。

  眼睛看到的、手脚执行的、桌面协作的、企业沉淀的,最后都要汇到同一个大脑里。

  而能不能汇得通,答案全在底座。

  标王连庄,靠的是十六年家底

  说了这么多,最终所有的线索都指向了一个必须回答的问题:凭什么是讯飞?

  先上数据。2025 年全年,讯飞拿到了 210 个中标项目,23.16 亿中标金额。数量和金额两项都是第一,蝉联 2025 年大模型「标王」。

  也就是说,讯飞一家的中标金额,大幅超过了榜单上后面几家披露金额的总和。

  更关键的是分布。教育、医疗、金融、通信、能源、政务六大行业全线覆盖,80% 以上是应用类项目,真正落地到了企业业务流。

  数字背后是具体的项目。

  讯飞拿下了安徽省人工智能应用中试基地,深耕医学垂类模型,承担全省试点的那一环。

  国家能源集团用「OCR+ 星火大模型」打造智能无人评审系统,率先在非招采购全类别、全方式的业务跑通。

  西安铁路通过星火知识库与讯飞智文,将大模型能力平替进大基建基层的日常办公流。

  尤其要拎出来说的是美团。基于星火大模型的 AI 文案和 AI 脚本,已经在旗下多个产品上线。这一条的分量不在于单子大小,在于客户是谁。一线C端互联网大厂接入讯飞的大模型底层,是客户光谱里的新面孔。

  而所有这些项目背后,是一个从 2010 年长起来的开放平台。

  截至 2026 年 3 月 31 日,讯飞开放平台已经沉淀 1074 万开发者团队、931 项 AI 产品、403 万应用、43.1 亿台终端设备。十六年家底。光星火发布以来就新增 664 万开发者,大模型相关开发者 253 万。

  能做 Agent 生态整合的公司不止一家。但能把生态、模型、硬件、落地经验全部凑齐的,没几家。

  当龙虾走出聊天框

  当 Agent 有了眼睛、耳朵和手,它要解决的问题就变了。不再是「如何回答得更聪明」。是「如何把事情真的做完」。

  一年前,AI 圈刚开始流行养龙虾的时候,没人说过龙虾有一天会爬出鱼缸。

  现在它爬出来了。

  下一个问题不再是它能不能替人干活。是它走到哪家工厂、哪个会议室、哪个展台,就会先改变哪里。