国思软件 - Hassabis狂赞！谷歌爆改50年鼠标，指哪AI打哪，连提示词都省了

　　新智元报道

　　编辑：元宇

　　Google DeepMind 发布实验原型「AI-enabled pointer」，键盘、鼠标、触屏之后，下一代交互正在成形。

　　那个陪了你 50 年、从未改变过的鼠标指针，要长出大脑了。

　　自 1970 年代诞生以来，鼠标指针几乎没有进化过。它出现在每一个网站、每一份文档、每一套工作流程里，却从未真正理解过你在做什么。

　　近日，Google DeepMind 发布研究博客，展示由 Gemini 驱动的实验性原型「AI-enabled pointer」，并在 Google AI Studio 开放两个实验 Demo。

　　负责这个项目的研究员 Adrien Baranes 和 Rob Marchant 在官方博客里写道：「我们正在开发更无缝、更直观的与 AI 协作的方式。」

　　https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com

　　DeepMind CEO Demis Hassabis 更是亲自发帖，称这次体验「相当神奇」。

　　鼠标的图标没变，但箭头背后的逻辑变了：不再只知道你指向哪里，而是开始理解你想干什么。

　　目前，这个原型已经可以在 Google AI Studio 中体验，已开放两个 Demo：编辑图片（AI-Pointer: Create）和地图找地点（AI-Pointer: Find）。

　　「AI-Pointer: Create」入口：https://aistudio.google.com/apps/bundled/ai-pointer-create

　　DeepMind 官方视频：鼠标指针，一个被遗忘的东西。

　　AI 应该来找你，而不是你去找 AI

　　你每天浪费多少时间在「解释上下文」？

　　想一下这个你每天都在重复做的场景：

　　打开 ChatGPT 或者 Gemini 等 AI 工具的对话窗口；切回你正在看的网页或文档，选中那段你想分析的内容，复制；切回 AI 窗口，粘贴。再用一两句话解释你要什么。等待。拿到结果；再切回去执行……

　　每一次「切窗口→复制→解释→等待→切回来」，都是一次认知中断。

　　你在 AI 那里花的大量时间，其实并没有用在真正的问题上，而是用在了「告诉 AI 你在看什么」。

　　DeepMind 对于这个问题看得很准：

　　通常，AI 工具住在自己的窗口里，用户需要把自己的世界拖进去。我们想要的恰恰相反：AI 应该来找你，而不是你去找 AI。

　　这句话，点透了过去两年 AI 交互模式最核心的结构性缺陷。

　　不用提示词

　　指着说 AI 就懂

　　AI-enabled pointer 要解决的，正是这类摩擦。Adrien 认为这个项目的核心命题只有一个：

　　如何构建一个能真正理解流动用户意图的系统。

　　这背后有四个设计原则，是这套系统的骨架，共同回答一个问题：怎么让 AI 读懂你的意图，而不需要你花力气解释。

　　第一个原则叫「Maintain the flow」，保持流畅。

　　按 DeepMind 的设计目标，AI 能力不应把用户带离当前应用，而应尽可能出现在用户正在工作的上下文中。指着一份 PDF 说「给我一个摘要，直接可以粘进邮件的那种」，AI 完成，你继续。

　　第二个原则叫「Show and tell」，指给它看。现在用 AI，你需要写一段详细的提示词，描述你要处理的内容是什么、长什么样、上下文是什么。

　　AI-enabled pointer 把这一步省掉了。光标悬停在哪里，Gemini 就捕获那里的视觉信息和语义上下文。你不需要描述你看到的东西，因为 AI 已经看到了。

　　第三个原则，是 DeepMind 最喜欢强调的一个：「Embrace the power of This and That」，拥抱「这个」和「那个」的力量。

　　想想人和人之间怎么协作。你不会跟同事说「请将第三行第二列的数值乘以二并更新到对应的汇总表格里」。你会说「这个数字，改成两倍，更新到那里」，然后用手指一指。

　　AI-enabled pointer 要让人机协作变得像人与人协作一样自然。技术实现上，可以理解为，系统不再只解析语音里的文字，而是把「this」「that」「here」「there」这类指代词，与光标或手势所指向的视觉和语义上下文关联起来。

　　所以，当用户说「把这个便签改成橙色」时，「这个」不再只是一个模糊代词，而会被系统结合当前指向的位置、对象和上下文来理解。Gemini 拿到的也不只是字面上的一句话，而是由语音、指向和屏幕内容共同构成的意图。

　　提示词的本质一直都不是文字，而是意图。现在，意图终于可以用最短的方式传达了。

　　更有意思的是，「指向」并非只有鼠标一种方式。演示里，Adrien 用的是头部追踪：头转向哪里，AI 注意力就跟到哪里。语音、文字、图像理解，全部同时在线。

　　第四个原则最有技术含量：「Turn pixels into actionable entities」，让像素变成可操作的实体。

　　过去 50 年，光标只知道你指的是哪里，却看不懂你指的是什么，AI-enabled pointer 要改变这件事。

　　你悬停的那张图里有一栋建筑，AI 识别出「这是一个地点」，于是「给我导航」成了一个可以直接触发的操作；

　　你拍下一张手写便条，AI 看懂了上面的字，便条自动变成了一份可编辑的待办清单；

　　你在旅游视频里暂停了一帧，画面里那家看起来不错的餐厅，直接可以弹出订位链接。

　　演示里还有一个细节让人印象很深：Adrien 指着一份餐厅菜单，再指着另一张风格参考图，说「用这张图的风格，帮我把这份菜单画出来」。

　　Gemini 同时读懂了菜单的内容和参考图的视觉风格，生成了一张融合两者的新图。这不是两步操作，是一句话、两个手势，完成的事。

　　像素第一次有了语义。

　　从概念到落地

　　DeepMind 并没有停在概念层面。

　　Google 表示，相关交互原则已开始进入产品：在 Chrome 中，用户可以用指针指向/选择网页中的内容，并向 Gemini 提问。

　　Googlebook 上的 Magic Pointer 已被 Google 列为即将推出的系统级能力，首批 Googlebook 设备计划于今年秋季上市。

　　当然，从演示到日常可用，还有一段路要走。

　　识别准确率、跨应用兼容性、响应速度，都需要在真实的复杂桌面环境里经历打磨。

　　还有一个问题值得认真对待：AI-enabled pointer 需要持续理解你的屏幕内容，数据如何采集、如何存储、流向哪里，DeepMind 目前尚未详细说明。

　　这些并非障碍，而是一项新交互范式从实验室走向大众必须经历的过程。

　　每一项改变交互方式的技术，都经历过这个阶段。触屏手机在第一代 iPhone 发布时，也没有人敢保证它能取代键盘。

　　键盘 1973，鼠标 1984，触屏 2007

　　下一代交互在 2026

　　把这只指针放回 50 年人机交互史的时间线上，它的意义会变得很清楚。

　　1973 年，Xerox Alto 把图形界面、位图显示和鼠标等现代桌面交互雏形带入实验系统。

　　1984 年，Macintosh 让鼠标与图形界面进入大众视野，人开始用「指」图标完成操作。

　　2007 年，iPhone 让手指直接成为主要输入方式，触屏成为移动计算的核心交互。

　　每一次跃迁，背后都是同一件事：机器学会了更多，人需要学的就变少了。

　　2022 年之后的提示词框是另一条线。

　　人把意图翻译成自然语言，递给一个对话框，再等机器返回答案。表达带宽变宽了，但表达环节本身没消失。你还是要打字、描述。

　　2026 年这只指针，试图压缩的是「解释上下文」这一步，而不是完全消灭表达本身。

　　2026 年这只指针，试图压缩的是「解释上下文」这一步。

　　手势+语音+语义理解同时到位，意图的传达方式从「精确描述」变成了「自然指向」：人还是要表达，只是再也不用费力解释「我在看什么」了。

　　前四代交互都是「人主动表达」。这一代第一次是「机器主动理解」。手势+语音+语义理解同时到位，意图的传达方式从「精确描述」变成了「自然指向」。提示词工程在这个范式中几乎不再存在。

　　Adrien 在视频结尾描述了他想象中的未来：

　　一种新型操作系统。AI 主动呈现我可能感兴趣的内容，我用指向回应它，我们共享注意力，共享画布，就像和另一个人一起工作。

　　AI 交互的终点，并非一个更聪明的搜索框，而是一个真正能和你协作的伙伴。

　　最好用的工具，往往是你忘记它存在的那种。

　　鼠标陪了人类 50 年。下一个 50 年，它或许会真正开始理解你。

　　参考资料：

　　https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com

　　https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&fullscreenApplet=true&showAssistant=true

Hassabis狂赞！谷歌爆改50年鼠标，指哪AI打哪，连提示词都省了

我们的产品

相关链接

关于我们

联系我们