
新智元报道
编辑:元宇
Google DeepMind 发布实验原型「AI-enabled pointer」,键盘、鼠标、触屏之后,下一代交互正在成形。
那个陪了你 50 年、从未改变过的鼠标指针,要长出大脑了。
自 1970 年代诞生以来,鼠标指针几乎没有进化过。它出现在每一个网站、每一份文档、每一套工作流程里,却从未真正理解过你在做什么。
近日,Google DeepMind 发布研究博客,展示由 Gemini 驱动的实验性原型「AI-enabled pointer」,并在 Google AI Studio 开放两个实验 Demo。

负责这个项目的研究员 Adrien Baranes 和 Rob Marchant 在官方博客里写道:「我们正在开发更无缝、更直观的与 AI 协作的方式。」

https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com
DeepMind CEO Demis Hassabis 更是亲自发帖,称这次体验「相当神奇」。

鼠标的图标没变,但箭头背后的逻辑变了:不再只知道你指向哪里,而是开始理解你想干什么。
目前,这个原型已经可以在 Google AI Studio 中体验,已开放两个 Demo:编辑图片(AI-Pointer: Create)和地图找地点(AI-Pointer: Find)。

「AI-Pointer: Create」入口:https://aistudio.google.com/apps/bundled/ai-pointer-create
DeepMind 官方视频:鼠标指针,一个被遗忘的东西。
AI 应该来找你,而不是你去找 AI
你每天浪费多少时间在「解释上下文」?
想一下这个你每天都在重复做的场景:
打开 ChatGPT 或者 Gemini 等 AI 工具的对话窗口;切回你正在看的网页或文档,选中那段你想分析的内容,复制;切回 AI 窗口,粘贴。再用一两句话解释你要什么。等待。拿到结果;再切回去执行……
每一次「切窗口→复制→解释→等待→切回来」,都是一次认知中断。
你在 AI 那里花的大量时间,其实并没有用在真正的问题上,而是用在了「告诉 AI 你在看什么」。
DeepMind 对于这个问题看得很准:
通常,AI 工具住在自己的窗口里,用户需要把自己的世界拖进去。我们想要的恰恰相反:AI 应该来找你,而不是你去找 AI。
这句话,点透了过去两年 AI 交互模式最核心的结构性缺陷。
不用提示词
指着说 AI 就懂
AI-enabled pointer 要解决的,正是这类摩擦。Adrien 认为这个项目的核心命题只有一个:
如何构建一个能真正理解流动用户意图的系统。
这背后有四个设计原则,是这套系统的骨架,共同回答一个问题:怎么让 AI 读懂你的意图,而不需要你花力气解释。
第一个原则叫「Maintain the flow」,保持流畅。
按 DeepMind 的设计目标,AI 能力不应把用户带离当前应用,而应尽可能出现在用户正在工作的上下文中。指着一份 PDF 说「给我一个摘要,直接可以粘进邮件的那种」,AI 完成,你继续。
第二个原则叫「Show and tell」,指给它看。现在用 AI,你需要写一段详细的提示词,描述你要处理的内容是什么、长什么样、上下文是什么。
AI-enabled pointer 把这一步省掉了。光标悬停在哪里,Gemini 就捕获那里的视觉信息和语义上下文。你不需要描述你看到的东西,因为 AI 已经看到了。
第三个原则,是 DeepMind 最喜欢强调的一个:「Embrace the power of This and That」,拥抱「这个」和「那个」的力量。
想想人和人之间怎么协作。你不会跟同事说「请将第三行第二列的数值乘以二并更新到对应的汇总表格里」。你会说「这个数字,改成两倍,更新到那里」,然后用手指一指。
AI-enabled pointer 要让人机协作变得像人与人协作一样自然。技术实现上,可以理解为,系统不再只解析语音里的文字,而是把「this」「that」「here」「there」这类指代词,与光标或手势所指向的视觉和语义上下文关联起来。
所以,当用户说「把这个便签改成橙色」时,「这个」不再只是一个模糊代词,而会被系统结合当前指向的位置、对象和上下文来理解。Gemini 拿到的也不只是字面上的一句话,而是由语音、指向和屏幕内容共同构成的意图。
提示词的本质一直都不是文字,而是意图。现在,意图终于可以用最短的方式传达了。
更有意思的是,「指向」并非只有鼠标一种方式。演示里,Adrien 用的是头部追踪:头转向哪里,AI 注意力就跟到哪里。语音、文字、图像理解,全部同时在线。
第四个原则最有技术含量:「Turn pixels into actionable entities」,让像素变成可操作的实体。
过去 50 年,光标只知道你指的是哪里,却看不懂你指的是什么,AI-enabled pointer 要改变这件事。
你悬停的那张图里有一栋建筑,AI 识别出「这是一个地点」,于是「给我导航」成了一个可以直接触发的操作;
你拍下一张手写便条,AI 看懂了上面的字,便条自动变成了一份可编辑的待办清单;
你在旅游视频里暂停了一帧,画面里那家看起来不错的餐厅,直接可以弹出订位链接。
演示里还有一个细节让人印象很深:Adrien 指着一份餐厅菜单,再指着另一张风格参考图,说「用这张图的风格,帮我把这份菜单画出来」。
Gemini 同时读懂了菜单的内容和参考图的视觉风格,生成了一张融合两者的新图。这不是两步操作,是一句话、两个手势,完成的事。
像素第一次有了语义。
从概念到落地
DeepMind 并没有停在概念层面。
Google 表示,相关交互原则已开始进入产品:在 Chrome 中,用户可以用指针指向/选择网页中的内容,并向 Gemini 提问。
Googlebook 上的 Magic Pointer 已被 Google 列为即将推出的系统级能力,首批 Googlebook 设备计划于今年秋季上市。
当然,从演示到日常可用,还有一段路要走。
识别准确率、跨应用兼容性、响应速度,都需要在真实的复杂桌面环境里经历打磨。
还有一个问题值得认真对待:AI-enabled pointer 需要持续理解你的屏幕内容,数据如何采集、如何存储、流向哪里,DeepMind 目前尚未详细说明。
这些并非障碍,而是一项新交互范式从实验室走向大众必须经历的过程。
每一项改变交互方式的技术,都经历过这个阶段。触屏手机在第一代 iPhone 发布时,也没有人敢保证它能取代键盘。
键盘 1973,鼠标 1984,触屏 2007
下一代交互在 2026
把这只指针放回 50 年人机交互史的时间线上,它的意义会变得很清楚。
1973 年,Xerox Alto 把图形界面、位图显示和鼠标等现代桌面交互雏形带入实验系统。
1984 年,Macintosh 让鼠标与图形界面进入大众视野,人开始用「指」图标完成操作。
2007 年,iPhone 让手指直接成为主要输入方式,触屏成为移动计算的核心交互。
每一次跃迁,背后都是同一件事:机器学会了更多,人需要学的就变少了。
2022 年之后的提示词框是另一条线。
人把意图翻译成自然语言,递给一个对话框,再等机器返回答案。表达带宽变宽了,但表达环节本身没消失。你还是要打字、描述。
2026 年这只指针,试图压缩的是「解释上下文」这一步,而不是完全消灭表达本身。
2026 年这只指针,试图压缩的是「解释上下文」这一步。
手势+语音+语义理解同时到位,意图的传达方式从「精确描述」变成了「自然指向」:人还是要表达,只是再也不用费力解释「我在看什么」了。

前四代交互都是「人主动表达」。这一代第一次是「机器主动理解」。手势+语音+语义理解同时到位,意图的传达方式从「精确描述」变成了「自然指向」。提示词工程在这个范式中几乎不再存在。
Adrien 在视频结尾描述了他想象中的未来:
一种新型操作系统。AI 主动呈现我可能感兴趣的内容,我用指向回应它,我们共享注意力,共享画布,就像和另一个人一起工作。
AI 交互的终点,并非一个更聪明的搜索框,而是一个真正能和你协作的伙伴。
最好用的工具,往往是你忘记它存在的那种。
鼠标陪了人类 50 年。下一个 50 年,它或许会真正开始理解你。
参考资料:
https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com
