摘要
成立于 2021 年 12 月的 MiniMax,已经拥有自己的大模型和应用产品。
以 ChatGPT 为代表的 AI 技术,将从根本上改变每一个软件服务类别——微软总裁纳德拉的这句断言,今天已经成为全球大部分科技从业者的共识。
但当国外科技行业热火朝天投入这波浪潮中时,中国从业者们却悲哀地发现:国内在大模型领域几乎是一片空白。只有几个大公司零星宣布将在未来推出自己的大模型,以及几个明星创业者透露将在这个领域创业。
在这样的背景下,创业公司 MiniMax 的「横空出世」无疑是一个意外的惊喜。这家一年半前创立的公司,从成立的第一天起以大模型作为主要的研发方向。今天已经拥有三个模态的基础大模型,涉及语音、图像、文本不同内容的生成。
基于自研的大模型,他们已经推出了一个智能对话机器人生成平台 Glow,目前已经有近五百万的用户和每天上亿级的用户调用次数。
在 ChatGPT 爆火前,做大模型这件事是一个投入巨大、赛道偏门,商业化前景却非常不明朗的「笨生意」。别说普通创业者,就连掌握众多资源的互联网巨头,也鲜有涉猎或者投入有限。而这也是今天国内大模型一片空白的直接原因。
正因如此,MiniMax 的存在令人好奇。和几名早期成员和技术骨干聊过后,我们发现这是一批经历、背景迥异,却对 AI 抱有持续思考和探索的技术理想主义者。他们因为信仰 AGI(通用人工智能)而聚在一起。
在人们感叹技术长期主义难以存在的时候,这样团队的出现,似乎正是人们所期待的。
01
三个大模型
从成立的第一天起,MiniMax 就选择以大模型作为主要的研发方向。
目前,MiniMax 拥有能力各异、三个模态的基础大模型(foundation model) :分别是 Text-to-Text、Text-to-Visual、Text -to- Audio。
这三个模型分别对应内容在不同形态之间的转换与生成。Text-to-Text 对应文本与文本间的转换(比如可以通过能够通过生成的文本回答提问),Text-to-Visual 对应文本与视觉图像之间的转换(比如可以通过文字描述生成图像),Text -to-Audio 则是依据文本生成声音。
大模型是一个复杂的系统工程,MiniMax 联合创始人 Allen(杨斌)用造火箭来形容——涉及到的技术、论文是公开的,但不意味着一定能够把火箭造出来。而作为创业公司,需要在有限的时间和资源中实现既定的目标。
团队早期成员葛温形容,「每个技术判断,都会直接影响到最后的效果,每一个步骤都是串联在一起的,因此每个决定都是重要的。」而团队成员的技术背景各异,这让他们能够视角互补,充分讨论。
Allen 告诉极客公园,团队设立的第一个里程碑是在半年内把三个大模型都做到世界领先水平。这考验团队在一个个技术选择中做出正确的决策,也促使他们向更基础更底层的技术做更多探索。Allen 说,「我们在底层技术上,做了通常创业公司不太会做的事情,」
MiniMax 自研技术的最底层是为支持大模型而搭建的硬件基础设施——以高效的 GPU 提供稳定可靠的并行计算能力,支持语音、文本、视觉多模态的计算,自训练计算能力强,同时也有很强的适应能力。通过这个基础设施层,将数据和算力作为养料提供给大模型。
除了技术先进外,大模型的最终目的是对外输出服务。去年 11 月,公司发布了第一个产品:Glow。经过四个月,这个 App 已经有了近五百万用户。
有用户将 Glow 形容为「第一人称视角下的开放世界」,团队觉得很贴切。玩家通过和 AI 驱动的智能体对话,来建造自己的世界。Glow 能够提供和多个不同「人设」智能体对话的体验,玩家可以选择已经存在的智能体,比如可能是小说《三体》中的某个角色,也可以自己用语言描述性格,「捏」出属于自己的智能体。
Glow 对于 MiniMax 的意义在于跑通了大模型和现实世界的交互。通过这个产品,大模型的能力通过具体的形式服务于用户。比如,用户可以通过语言描述,生成一张智能体的头像,这就是从 Text-visual 的图像生成能力;不同的智能体,拥有不同的音色和音质,这是 Text-audio 的语音生成。
在 Glow 上可以创建属于自己的智能体|来源:Glow
Glow 目前每天有上亿次的用户调用。要将大模型的能力如此广泛地提供给人们,在技术上需要解决低成本、高效率、稳定性的挑战。因此在模型之上,MiniMax 搭建了一个推理平台(Computing Platform)。
Allen 形容「怎么让一个很重的东西用起来很轻?这其实是一件工程难度非常大的事情。」未来,这个推理平台还会支持更多的应用,通过这些应用,模型与现实世界中人们的行为广泛交互,而数据将引导模型持续迭代。
02
信仰 AGI 的团队
MiniMax 成立于 2021 年 12 月。团队的几名核心技术骨干,大多来自海内外知名的 AI 公司和科技大厂。
葛温(花名)毕业于约翰霍普金斯大学,在大学的实验室里研究了 10 年的计算机自然语言。葛温毕业前的最后一份实习在美国微软总部,期间接触到生成式的对话系统,技术的可能性让他兴奋。
「做自然语言处理,想做的就是一个能听懂人话,能跟人交流的一个算法、模型,或者智能体,这是我读这个专业的初衷」,能做一个与真实世界的大量用户交互,并从中反馈、不断迭代的语言模型,是最吸引他加入 MiniMax 这样一家创业公司的地方。
创始员工大葱(花名)此前就职于商汤,深信 AI 的可能性,但经历过上一波 AI 浪潮的他,也深刻认识到上一代 AI 技术范式的局限性。
过去,AI 技术团队的工作方式是根据具体的应用场景去定制一个个模型,模型越来越多,却无法真正打通,长期维护成千上百个模型不太现实。即使花费了大量精力,让技术水平不断提高,AI 技术在现实世界里产生的影响却越来越有限。他从 2018 年 GPT-1 出来时就开始关注语言模型进展,逐渐意识到,语言或许能够作为交互界面,整合不同模态的技术。
Allen 的研究背景是计算机视觉博士,海外留学期间,他曾经是 Uber ATG 研究院的创始成员,经历过了整个研究院的搭建,也经历过 Uber 自动驾驶团队被打包出售,之后作为创始成员加入自动驾驶初创公司 Waabi,对于基于数据驱动的端到端系统有丰富经验。2021 年,Allen 认识了现在的合伙人,他们不时交流最新论文中的突破。一步步的突破,让他觉得 AGI(通用人工智能)越来越近了。
对团队而言,2020 年到 2021 年发生在不同行业的三件小事,让他们对 AGI 的到来产生了坚定的判断。
第一件事是 2020 年 6 月 GPT-3 的发布。模型的参数量从过去的百万级、亿级上升到千亿级,训练方式也从过去的数据标记变成在各种语料中学习。参数量和数据量双双量变引发了神奇的质变,让 GPT-3 具有了推理能力,并且形成了过去的 AI 模型所不具备的通用泛化能力。
第二件事是半年后的 2021 年 1 月,跨模态模型 CLIP 问世。CLIP 不仅能够实现用自然语言解释图片,还能通过文字描述生成图片。这打通了语言和文字两种不同媒形式的转换。OpenAI 随后发布的 Text - to - Image 生成工具 DALL-2 便是基于 CLIP 模型技术。
这件事的意义在于,过去针对不同的模态都要设计不同的专有模型,现在一套技术框架可以处理不同模态的数据,并可以做到非常好的跨模态生成和转化。
第三件事情则发生在半年后。2021 年 7 月,特斯拉在 AI Day 上展示了最新的自动驾驶技术,第一次证明了这种端到端完全数据驱动的技术路径,可以在现实世界的自动驾驶汽车上被成功应用。之后全球绝大部分自动驾驶公司才开始慢慢相信,端到端深度学习的这套技术栈原来真的是可以在现实世界当中 work 的。
Allen 说,发生在不同行业的三件事,被他们这群始终怀揣着 AGI 梦想的人串联了起来。他们相信 AI 技术在未来两到三年之内一定会发生质的变化和质的升级;基于这种升级,AGI 可能在这代人的有生之年到来。
因此在特斯拉 AI Day 结束的四个月后,MiniMax 正式成立。根据团队的说法,当时成立的 MiniMax,可能是国内第一家 All in AGI 的一家公司。
还有一个有意思的小事:在准备创业的阶段,团队里的好几个人都很喜欢玩底特律变人。在 Allen 看来,这款游戏就描绘了 AGI 实现之后,人与机器共生的时代。
他认为未来人机共生一定会实现,机器人可能有实体,也可能是一种虚拟的存在,但是他们的智能完备程度,都会使之与人类形成某种真正的关系,可能是提供生产力,也可能是情感上的陪伴。
用户分享在 Glow 上共创的剧情|来源:小红书分享
03
「User- in-the-Loop」
「ChatGPT 火起来之后,我们觉得很开心,这下省了很多教育市场的气力。」在一场小型的媒体沟通会上,MiniMax 的一位创始成员和参与活动的记者交谈时说。这也是公司第一次正式的小型亮相,此前 14 个月,公司几乎很少对外发声,一直在默默研发技术和产品。
ChatGPT 的付费账户开通,用户在短短两个月内突破了 1 亿,这也使得它成为了一种全新的存在。它本身是一个大模型,但它的受欢迎程度和人们的使用频率,也使它成为了一个类似「产品」的存在。
「ChatGPT 这件事最大的启示似乎是验证了我们在做的这些事情,确实是有需求的。」葛温认为这是对自己莫大的鼓舞。
在 Allen 看来,这正是当下大模型最神奇的一点,「当它足够通用,泛化能力足够强,它本身就有足够的多任务的通用能力,很多时候就可以直接拿来用」。
目前已经有很多人拿 ChatGPT 修改代码 Bug、查资料、写文章、甚至尝试用它来生成报告,人们会根据自己的需求使用它。使用门槛足够低、可以被各种人群使用,使得大模型天然就具备了某些产品属性。
「AGI 公司其实也是一个全新的公司类型。」Allen 在沟通会上介绍道,大模型公司不再去基于 AI 技术做针对性的解决方案,而是通过各种方式,让更多人直接与技术进行动态的、实时更新的交互。
在这种体系下,原来 toB 和 toC 的概念也不再重要。大葱表示「我们不太会刻意地去区分这一点。其实主要的还是我们能够覆盖多大的用户群体,给他们带来多大的效率提升、或者其它价值」。
可以想象,在 2021 年 MiniMax 刚成立时,这套逻辑会让他们在创业早期寻找投资人、合作伙伴甚至员工时,屡屡碰壁。「没有办法说服投资人,因为没有人能听懂,我们说非常多次,也没有几个人信。」一位创始成员说。
一端是核心技术,另一端是具体的用户,在这两端之间,实现真正畅通的反馈和联动。这是目前 MiniMax 核心的思考逻辑之一,团队将其总结为「User- in-the-Loop」。
Allen 说,这一点的启发还是来自 2021 年的特斯拉 AI Day。AI Day 上展示的很多技术的第一版学术原型,源自他和一些曾经的合作者们,但是特斯拉将这些技术装载在无数的车上,和真实世界里的用户进行交互、反馈迭代。
「我觉得它教会了我一件事情,当你有一个非常前沿的技术时,怎样以一个商业公司的角度,放在真实世界中,make real impact for everyone.」
在被问及接下来有什么规划的时,团队成员最喜欢的说法是「按自己的节奏来」。他们表示,今年会开放模型的 API,接下来也会根据模型的能力开发新的产品。