
微软于近日开源了 Phi-Ground 模型家族。该系列模型专注于一个具体问题:给 AI 一张屏幕截图和一条指令,让它准确输出应该点击的坐标位置。
开源的 Phi-Ground-Any-4B 参数量约 4B,官方宣称其在搭配大模型辅助理解指令的测试条件下,点击准确率超过了 OpenAI Operator 和 Claude Computer Use,并在五项主流评测中拿下 10B 参数以下模型的全部第一。
Hugging Face: huggingface.co/microsoft/Phi-Ground-Any
