字节推出游戏 Agent,能自己「玩」原神

  近日,字节跳动推出通用 AI 智能体「Lumine」,在 3D 开放世界游戏《原神》中展现出高度自主性与跨场景泛化能力。

  据悉,该系统能够在无人工干预的情况下完成长达数小时的主线任务,并在陌生场景中实现自主导航。

  研究团队基于 Qwen2-VL-7B-Base 模型,采用类人交互范式,将感知、推理与操作统一整合,形成了「Base」「Instruct」「Thinking」三阶段版本,分别对应基础动作学习、指令跟随与长周期推理训练。

  在蒙德地区的主线剧情中,Lumine-Thinking 模型耗时 56 分钟完成第一章任务,成功率达 100%,相比 GPT-5 的 112 分钟更具效率。

  在第二、三章合计 4.7 小时的任务中,完成率接近 98.2%,远超 Gemini 2.5 Pro 的 65%。

  此外,该模型在《鸣潮》《崩坏:星穹铁道》以及《黑神话·悟空》等未训练过的游戏中也展现出较强的适配能力,其中在《崩坏:星穹铁道》第一章任务中耗时 7.2 小时,完成率超过 92%。

  技术层面,Lumine 通过视觉输入与键鼠操作建模实现实时交互,端到端延迟降至 129.8ms。其混合思考策略仅在关键节点触发推理,有效保障了长任务的连贯性。团队还采用滑动窗口机制与分阶段优化策略,提升了长周期任务中的稳定性与效率。