微软开源Phi-Ground模型家族:让AI准确点击屏幕,五项评测10B以下全部第一

  微软于近日开源了 Phi-Ground 模型家族。该系列模型专注于一个具体问题:给 AI 一张屏幕截图和一条指令,让它准确输出应该点击的坐标位置。

  开源的 Phi-Ground-Any-4B 参数量约 4B,官方宣称其在搭配大模型辅助理解指令的测试条件下,点击准确率超过了 OpenAI Operator 和 Claude Computer Use,并在五项主流评测中拿下 10B 参数以下模型的全部第一。

   Hugging Face: huggingface.co/microsoft/Phi-Ground-Any