
新智元报道
编辑:元宇
谷歌悄悄加了一个 Agent 新入口:Gemini 开始长出「手脚」,不再只负责回答问题,还准备下场替你干活了。
一张截图,提前透露了今年谷歌I/O大会的一点重要信息:
Gemini 不只想聊天了,它还想当 Agent 工作台。
近日,长期追踪谷歌产品变动的 TestingCatalog 抓到了 Gemini 上一个新的「Agents」入口。

它和 Gems、Files 并列,直接摆在一级入口,而不是只有开发者才能看到的隐藏选项。
这个改变释放出一个清晰的信号:
Gemini 的下一阶段,不再只是一个「你问我答」的聊天框,而是一个「你下任务、它来执行」的工作台。
把谷歌过去半年的产品动作串起来看,这条线已经很清楚了:
Agent Designer 在 Gemini Enterprise 全面上线,NotebookLM 补上音频生成和视频摘要,Agentspace 整体并入 Gemini Enterprise 成为其核心引擎,Chrome 嵌入 Gemini 侧边栏并上线 Auto Browse 让 AI 代你操作浏览器。
而现在,Gemini 的聊天界面里出现了一个与 Chat 并列的「Agents」标签页,用户可以直接在里面新建任务、指定目标、挂载工具和文件,整个界面更像一个任务执行工作台,而不是聊天窗口。
每一步都在做同一件事:把 Agent 能力从开发者后台搬到普通用户面前。
I/O还没开场,谷歌的牌其实已经亮出了一半。
Chat 不再是唯一中心
翻一下谷歌官方的产品描述,你会发现画风已经变了。
2024 年 2 月 Gemini for Google Workspace 刚上线的时候,那时的卖点是什么?Chat。

跟 AI 聊天,帮你写邮件,帮你做会议纪要,本质上是一个塞进 Workspace 里的聊天助手。
现在再看谷歌官网对 Gemini Enterprise 的描述:「Gemini Enterprise 让团队在一个安全平台上发现、创建、分享和运行 AI Agent。」

聊天能力依然是 Gemini Enterprise 的核心之一,但它现在已被清晰地纳入到一个更大的 Agent 平台框架之中。

TestingCatalog 曝光的 Gemini Enterprise 测试界面
根据 TestingCatalog 曝光的 Gemini Enterprise 测试界面显示,Agent 已进入主交互区:左侧可在 Chat 与 Agent 间切换,右侧则整合目标、Agent、应用连接与文件面板。
在新增的「智能体」标签页面中,首先映入眼帘的是「新建任务」和「收件箱」这两个明确的入口。
当启动一项新任务时,界面会展开为一个功能强大的任务工作区。
虽然核心的聊天视图依然保留,但它的右侧出现了一个结构化的任务面板。
该面板清晰地定义了任务的各个要素,包括明确的「目标」、执行任务的「智能体」、可访问的「已连接的应用」以及所需的「文件」。
此外,右侧边栏还出现了一个「Require human review」(需要人工审核)开关,用户可以对任务执行过程加入人工审核节点,整个界面也因此更像一个任务执行工作区,而不只是普通聊天窗口。
这表明你打开 Gemini,将不再仅仅是为了聊天,而是要「跑一个任务」。
这也印证了谷歌对 Gemini Enterprise 的定义,已经从一个「聊天助手」转变为一个强大的「Agent 运行平台」。
不用写代码
也能造 Agent
落到产品层面,最硬的一块拼图是 Agent Designer,它已于 2025 年底正式上线了。

谷歌官方对它的定义是:
一个交互式的无代码/低代码平台,用于在 Gemini Enterprise 中创建、管理和发布单步及多步 Agent。
拆开来看三个关键能力:
第一,多步骤 Agent。
不是「帮我写封邮件」这种单次指令,是支持多步任务编排,Agent 下面还能挂子 Agent,串成工作流。
第二,连接真实工具。
Gmail、谷歌 Drive、Jira、GitHub、Notion、SharePoint,这些都是官方更新日志里列出来的已上线连接器,Shopify 等更多连接器也已进入公开预览。
第三,定时执行。
Agent 不需要你盯着,设好时间自己跑。
而在此之前,谷歌已经通过 Agentspace(现已并入 Gemini Enterprise)验证了这条路线:把知识搜索和 Agent 执行捏到同一个平台里。
员工不用关心后面跑的是哪个 Agent、调的是哪个数据源,在一个界面里搜、问、跑,全搞定。
而泄露界面里出现的C端 Agent 标签页,意味着这套能力不会只留在企业版。
谷歌大概率要把它推给所有用户。
光有大脑不够
还得有手脚
这里有个容易混淆的概念需要拆清楚。
Agent 不等于大模型。
大模型更像是 Agent 的「大脑」,负责理解任务、推理路径和生成决策。
但要真正把事情做完,还需要一层「手脚」,也就是编排层,负责拆解步骤、调用工具、衔接上下文,并处理执行过程中的异常。
谷歌这次补上的,正是这层能力。
从公开资料看,Gemini Enterprise 里的 Agent Designer,可以理解成一个面向普通企业用户的可视化 Agent 工作台:不用写代码,也能把单步、多步任务编排出来。
相比之下,Vertex AI Agent Builder 里的 Agent Designer 更偏底层和开发者场景。
两者能力框架高度相似,只是前者被做成了更易用、门槛更低的产品界面。
换句话说,谷歌做的不是单纯把模型变得更会聊天,而是把原本更偏开发者的 Agent 构建能力,包装成了普通用户也能上手的可视化工作台。
对C端用户来说,这意味着一件事:你不需要懂 API,不需要写 Python,拖拖拽拽就能让 AI 帮你跑完一个工作流。
从「能聊天的 AI」到「能干活的 AI」,中间隔的就是这个编排层。
编排层三国杀
把视野拉远一步:谷歌不是唯一在抢编排层的人。
Anthropic 和 OpenAI 各自押了完全不同的路线,三家的分歧大到像在做三个不同的产品。
先看理念。
谷歌走的是平台化。
把 Agent 能力嵌入已有产品矩阵:Workspace、Search、NotebookLM、谷歌 Cloud,靠分发优势碾压。
逻辑很清楚:20 亿+用户的触达能力是护城河,Agent 做出来直接塞进用户已经在用的工具里。

Anthropic 走的是工具化。
Claude Cowork 运行在桌面端,直接操作本地文件、文件夹和应用程序。
Anthropic 的官方产品页写道:
它能在不同应用之间自由切换,整合多个来源的信息,不需要用户协调每一步就能完成任务。

https://www.anthropic.com/product/claude-cowork?utm_source=chatgpt.com
不建平台,不搞生态,让模型本身成为 Agent。
OpenAI 更像是在走平台与生态并举的路线:
一边通过 GPTs 和 GPT Store 扩大第三方供给与分发,一边在 API 侧从 Assistants API 迁移到 Responses API,并以 Agents SDK 承接更完整的 agent 开发。
再看架构差异。
谷歌重编排层。
Vertex AI Agent Builder 提供完整框架,Agent Designer 做前端,企业级多 Agent 协作是核心卖点。
Anthropic 轻编排重能力。
模型原生支持工具调用和环境交互,编排的事交给开发者自己搞定。Claude 的思路是:与其我帮你搭框架,不如我直接足够强,你爱怎么编排怎么编排。
OpenAI 在中间。
Assistants API 提供了一层编排抽象,但没有谷歌那么重,GPT Store 负责分发,但生态活跃度一直是个问号。
目标用户也完全不同。
谷歌瞄准企业 IT 部门和C端普通用户,门槛最低。Anthropic 瞄准开发者和高级用户,上限最高。OpenAI 试图广覆盖,开发者和C端都要。
有意思的是,三家现在竞争的已经不是「谁的模型更聪明」。编排层的易用性和生态丰富度,才是决定开发者选谁的胜负手。
谁先让十亿人用上 Agent
这一次的战场,不在模型层。
谷歌 CEO Sundar Pichai 曾在官方博客中说过:谷歌的竞争力,从来不只是某一个模型版本,而在于它背后那套完整的全栈能力:
从研究、模型与工具,到触达数十亿用户的产品入口,再到覆盖全球的云网络和数据中心体系。

当 Agent 从 API 走向 GUI,「人人可用」的临界点正在逼近。
而在这个临界点上,分发能力的重要性,正在迅速超过模型跑分。
Anthropic 的优势,在于它更早把「computer use」这类原生 Agent 能力推到台前。
Claude 已经可以通过截图、鼠标和键盘与桌面环境交互,Cowork 也明确强调它不是聊天助手,而是一个能在本地文件、文件夹和应用之间切换、代替用户执行多步知识工作的系统。
但 Anthropic 的短板也很明显:它没有谷歌那样的消费级产品矩阵,Cowork 目前官方口径仍是 research preview,虽然扩张很快,但离真正的大规模默认分发仍有一大段距离。
距离谷歌I/O大会不到一个月,谷歌很有可能会进一步公开自己的 Agent 方向。
这更像是一场「分发对执行」的对赌。
谷歌的赌注是:当 Agent 能力被接进 Gemini、Workspace 和更广泛的产品入口,现成的分发网络会迅速完成用户教育。
而 Anthropic 赌的则是:当开发者和高级用户真正体验过能跨应用、会动桌面的 Agent 之后,他们会优先为执行力买单。
这场 Agent 竞争的焦点,正在从「谁更会聊天」转向「谁更能把任务做完」。
比拼的不只是 Agent 的执行力本身,还有谁能把这种能力最快、最大规模地送到用户手里。
谷歌和 Anthropic 都在押注 Agent,但它们押的不是同一种胜利方式。
参考资料:
https://www.testingcatalog.com/google-develops-its-own-desktop-agent-to-compete-with-cowork/
