界面新闻记者伍洋宇
界面新闻编辑宋佳楠
12 月 26 日,界面新闻独家获悉,小米正在着手搭建自己的 GPU 万卡集群,将对 AI 大模型大力投入。小米大模型团队在成立时已有 6500 张 GPU 资源。
界面新闻据此向小米方面求证,截至发稿,小米暂未置评。
一名知情人士对界面新闻记者表示,该计划已经施行数月之久,雷军在其中扮演了重要的领导角色。“在 AI 硬件这件事情上,最核心的是手机而不是眼镜,小米在这个领域不‘all in’是不可能的。”
小米对 AI 大模型的重视度提升此前已有信号。12 月 20 日,据第一财经报道,DeepSeek 开源大模型 DeepSeek-V2 的关键开发者之一罗福莉将加入小米,或供职于小米 AI 实验室,领导小米大模型团队。
此前 DeepSeekV2 在模型架构上的重要创新在于对 MLA(Multi-head Latent Attention)的采用,这项技术在降低大模型使用成本上发挥了关键作用,而罗福莉是这项工作的核心人物之一。
2023 年 4 月,小米 AI 实验室大模型团队正式组建,任命栾剑担任大模型团队负责人,向小米技术委员会副主席、AI 实验室主任王斌汇报。
栾剑此前为 AI 实验室语音生成团队的负责人,曾任东芝(中国)研究院研究员、微软(中国)工程院高级语音科学家、微软小冰首席语音科学家及语音团队负责人等职位。
同一时间,雷军发文谈论对大模型和 AIGC 的看法时表示,小米在 AI 领域已经耕耘多年,有 AI 实验室、小爱同学、自动驾驶等团队。“对于大模型,我们当然会全力以赴,坚决拥抱。我们正在研发一些有趣的技术和产品,等我们打磨好了,再给大家展示。”
随后,在小米 2023 周年演讲上,雷军再度谈及公司大模型业务进展。
他称团队成立之后,小米大模型技术的主力突破方向为轻量化、本地部署。作为最新成果,小米已初步跑通手机端侧大模型(13 亿参数级别),在部分场景效果接近云端 60 亿参数级别的大模型,将同步推送升级大模型版本的小爱同学。
彼时,小米有 MiLM-6B/1.3B 两个参数级别模型。王斌在接受界面新闻等媒体采访时强调,包括数据、算法等在内,小米所训练的模型都是从零开始,但团队也不反对第三方大模型,将以开放态度坚持自研与第三方合作相结合,来推动其大模型发展。
值得注意的是,小爱同学首次升级时的大模型版本就采用了第三方和自研的混合方案。
公开资料显示,自 2016 年组建 AI 团队以来,小米人工智能团队经过 7 年 6 次扩展,相关领域人员规模已达 3000 多人,其 AI 技术能力已覆盖视觉、声学、语音、NLP、知识图谱、机器学习、大模型、多模态方向,并逐步接入手机、汽车、AIoT、机器人等业务板块。