“产品经理” 王诗沐,造了个 3D 游戏模型丨100 个 AI 创业者

“我其实天生就是一个适合创业的人。”

  文丨祝颖丽

  编辑丨宋玮

  王诗沐最鲜明的标签曾是网易云音乐创始人。之后,他的职业轨迹就显得有些 “迷失”:在腾讯的几年里,他主导过 NFT、社交电商等创新项目,执掌过腾讯新闻,但都因为业务关停、缩小或战略调整而显得沉寂。

  2022 年,王诗沐离开腾讯,一度 “消失” 于公众视野。但对王诗沐自己来说,过去一段时间事情一直在沿着他的路线图往前走。

  他是对内容形态很敏感的人,早在快手和抖音崛起前,他就看到了短视频作为新范式的价值;同时也看到了视频这种媒介的缺陷:它是单向的、被动的、让人沉迷的。在他看来,视频之后的下一代内容形态,应该是 3D——一种具备极强互动性和动态反馈的介质。

  早在腾讯时,他就开始接触 3D 内容。当时他负责的创新事业部,定下了三个核心点:AI、3D 和区块链。在他看来,这分别代表了新的生产力、新的介质和新的生产方式。

  AI 加上 3D,也最终成为了他现在的事业。2022 年底,王诗沐创立了全灵(Seele)。他从零开始训练 3D 游戏大模型,直到今年最终完成。接下来,他们还将发布一个 4D “世界模型”,让游戏从 “渲染” 走向 “实时生成”、以及一个统一 3D 理解、生成与编辑的大模型。

  如今,搭载他们自研模型的网页产品 Seele 已能实现分钟级生成游戏:一个简单的跳一跳或俄罗斯方块,几分钟搞定;复杂的 3D 场景和玩法,几个小时内就能成型。目前,Seele 积累了超过 100 万用户,生成游戏数量超过 3 万个。

  回看过去,王诗沐遗憾自己 “出来晚了”,这种目标纯粹的创造状态令他沉迷:“我早就该创业了,我现在非常快乐。”

  炼出一个 3D 游戏模型

  游戏早就证明了 3D 的吸引力:强互动、高沉浸、参与感极强,但 3D 内容过去没有长出 “平台”,是因为制作门槛太高了。

  过去二十年,3D 几乎等同于 PGC(Professionally Generated Content 专业生产内容)。一个像样的 3D 游戏,动辄上亿成本、百人团队。UGC (User Generated Content 用户生产内容)在这个世界里几乎没有生存空间。

  王诗沐一直在思考,能不能把 3D 内容的生产门槛降低。2022 年底他离职创业,在大语言模型尚产品尚未面世前,就已经开始研究 “如何让 3D 内容规模化生产”。

  那时能用的技术非常原始:GAN(对抗生成网络)、强化学习。做得很慢,也很重,且生成的模型 “泛化性” 极差——比如做完一个欧洲人模型,要切换到亚洲人或动物,几乎得重头再来。

  很快,大语言模型的爆发彻底改变了规则。用基于 Transformer 的自回归模型(时间序列的统计方法)来做 3D 模型的训练,能将生产效率提高 100 倍不止。

  然而,训练这套 3D 游戏大模型面临一个 “冷启动” 障碍:数据。

  互联网上遍地是文本和代码,但高质量的 3D 游戏数据,包括 3D 模型、动画序列、脚本代码,极其稀缺,且分散在艺术家手中。为了解决这个问题,全灵团队采取了一个巧妙的产品策略:他先做了一个名为 koko 的应用。

  koko 是一个 3D 虚拟人工具,用户可以上传 3D 模型,生成一个可以对话、跳舞的 Avatar(化身)。当时 Chatbot 类型的应用正在大火,团队利用这个时机,迅速就吸引了三千多位拥有高质量 3D 数据的创作者,并以此积累了最原始的 3D 数据。

  但拿到数据只是第一步,真正的难题在于如何处理。在 3D 领域,数据的复杂程度远超文本和图片。一个 3D 模型不仅包含几何结构,还包含材质、骨骼动画、物理属性以及它在空间中的交互逻辑。

  为此,公司内部甚至专门建立了一个近百人的数据团队,“你很难想象,一家创业公司会有一个上百人的数据团队(含外包和实习生)。”

  通过 koko 积累的数据,团队高精度的标注与清洗,Seele 最终在 2023 年底开始了正式训练,经过一年多的迭代,2025 年 5 月,Seele 游戏大模型第一代诞生了,基于此的产品 “Seeles.ai” 也正式上线。

  自此,用户只需要输入一段文字,通过与 AI 自然语言交互就能得到一个可运行的游戏。

  目前这个模型能力还在初期,王诗沐将之定义为 “L1 阶段”,智能水平还只能生成简单的预览版游戏。他预计,大约到 2026 年上半年,其能力上限就可以做出类《动物森友会》级别的复杂游戏;到 2029 年,能做出 《头号玩家》级别的全沉浸式世界。

  技术驱动的产品

  对于王诗沐来说,做 Seele 与当年做网易云音乐有本质区别。

  网易云靠的是市场敏锐度、是对用户的洞察;而 Seele 的底色是技术。对技术理解的深度,不仅会直接影响产品的锻造,还会影响运营以及商业化等方方面面。

  不同于行业目前普遍采用的 “AI+ 工具链” 模式——利用模型能力辅助现有工作流进行提效,Seele 相信未来模型的能力足以支撑起商业级游戏的完整生成。因此,他们不想止步于单点工具的开发,而是自研底层模型,试图让用户仅通过多轮对话造出完整的游戏,实现从灵感到完整游戏的 “端到端” 创造。

  另一个认知是,他们看到,当自回归大模型训练出来后,只要持续迭代下去,未来的边际成本会越来越低。

  目前 AI 行业普遍面临一个困境:成本无法收敛。一千个用户生成一千张图或一段视频,每一帧都是新的推理消耗。

  但 Seele 的游戏模型逻辑不同,“游戏是解耦的,一个用户跑步的视频,你没办法把里面的人背景,跑步的动作都分离出来,但是游戏是可以的,因为游戏本质上是分离的数据。”

  王诗沐解释,他们的用户如果生成相似的射击游戏,里面的建筑、枪械、地图的是多模态对齐的资产;而当另一个用户要做跑酷游戏时,相似风格的建筑资产也是可以复用的。这种资产复用带来的 “成本收敛”,让 Seele 生成一个复杂游戏的边际成本降到了几美金。

  目前,Seele 主要还主要以会员订阅来收费,但在未来,随着创造一款游戏的成本降到更低,团队不希望不再从用户手上收使用产品的钱,而是通过广告分成来实现商业化。

  比如,平台通过会算法筛选优质游戏、再进行分发,而创作者就可以通过在游戏中植入广告获得收入分成。

  “天生适合创业的人”

  虽然在大公司做到高管,但王诗沐更愿意定义自己为一个 “天生适合创业的人”。他享受创业带来的专注感和目标感,甚至会为了 ‘身体力行’ 搞明白开公司是怎么回事,而亲自去跑工商注册。

  全灵目前保持着精简的团队规模,正式员工仅 40 余人。未来,他们希望最上限也不要超过 1000 人。他们公司没有专门的 HR,王诗沐亲自负责最后一轮面试,决定新员工能否录用。

  为了适应大模型的飞速发展,全灵大约每个季度进行一次组织架构调整。 例如,在 2024 年,当技术实验证明 “自回归” 路径优于 “扩散” 路径后,团队迅速取消了按模态(3D、图像、文本、语音)划分的方式,转而进行整体合并。

  随着 L1 阶段的游戏趋于成熟,公司准备再次调整团队的资源分配。他们目前 70% 的人力资源在模型侧;下一步,他希望加大游戏的发行和商业化的力度,预计未来组织资源分配在模型和产品商业化上将达到 1:1 。

  王诗沐认为传统的 “诚信”、“正直” 等正面价值观是人类基本道德,无需赘述;在 Seele,他们通过规定 “红线” 来约束组织:不要官僚主义、不要贪污腐败 。

  在 AI 创业公司普遍争夺最聪明的人时,王诗沐对人才的思路也显得特别。

  他认为,勤奋的作用比聪明更重要;为了理解图形学底层逻辑,他们核心团队曾全员利用工作之外的时间,在一个月内都看完了几十个小时的专业视频课程(Games 101),这让他们整个团队都拉齐了对 AI 技术的理解。

  他也不迷信顶级名校或多年资历,而是倾向于相信年轻人的学习能力 。全灵公司里,现在就有 2024 年毕业的非名校本科生直接参与大模型训练,并已能独当一面。

  十几年前,刚做出网易云时,王诗沐说自己有一种 “春风得意” 的感觉,感受的是大江大河、时代汹涌的推背感;再次置身 AI 的浪潮里,他觉得自己已经淡定得多。他偶尔焦虑,但从不痛苦,因为创业带给他的专注、自由以及掌控的 “快乐” 已经足够多。

  为呈现创业者的个人特点和保留思考的完整度,以下为部分对王诗沐的采访问答,与正文互为补充:

  晚点:你创业,选择的为什么是 3D 游戏这个切口?

  王诗沐:我看好 3D,也不只是说它的商业价值大。显然,是我觉得 “互动” 对人类的价值是很高的。人本质上是个社交型的群居的动物,你一个东西的互动性很强,并且能打破时空限制的话,是可以大大增强人类的交互性的。

  晚点:有必要自己做一个模型出来吗?为什么你们有能力做,怎么做?

  王诗沐:如果能够广泛降低生产成本的话,那 3D 交互会成为人们互相交流的新的想象空间。所以,怎么样去能够把这个互动成本趋近于 0,这是我们首要去考虑的问题。

  以前人们互相发短信是一毛钱,后来发微信,你有个包月流量,这个边际成本趋近于零了。那从终局来思考的话,要达成的是技术范式的转变,意味着我们要选择一个边际成本持续往下降的技术路线。

  我本科本来也是学这个计算机图形方向的,我原来在浙大的 CAD 实验室。

  第一个就是我们自己学,我去读了大量的论文,然后看了大量的视频,自己一步步地去搞明白,要实现这个大模型到底需要什么东西,有哪些模块。

  也去找对应的,能做出这样技术路线的人才,能力图谱就是理解大模型结合游戏,但对游戏的理解,不需要特别深,尤其忌讳太深。

  因为如果你是一个游戏行业非常资深的人,会觉得我们这个做法有点太搞笑或者是太小儿科,一开始是绝对出不来高质量的东西的。

  晚点:从产品经理到自己做模型,是个转型吗?

  王诗沐:我对自己的定义不是一个产品经理,我不喜欢给人打标签,也不给自己打标签。我觉得做产品是一项综合能力,包括原来我在网易云音乐的时候,我很早就开始搞算法。

  网易音乐一开始的那个私人 FM 的算法,我还自己写,还去看过 meta 所谓的信息流推荐,我觉得一个好的产品经理要有很综合的能力,不只是说我调研一下用户需求、市场需求,写一下 PRD,到后面他需要有很好的架构能力,商业思想,还有技术理解能力。

  你的综合能力越强,你才能操这个盘,所以我肯定是很勤奋努力的。

  晚点:你们想用 AI 降低生产 3D 游戏的门槛,但有那么多用户有创造游戏的需求吗?而且它似乎比做一个视频对能力要求更高?

  王诗沐:游戏门槛是不是会更高?不会。电子游戏是经过专业人士是去制作的,它的制作、程度非常复杂,因此你会觉得这个游戏我肯定做不出来。但你对一个小孩说跳房子,他只要看别人跳过一遍,马上会跳。打弹珠也是。

  游戏互动是人类的天性,仔细想想看,从我们小时候出生开始,什么东西不用教,你只要是个人你就能学会的?

  婴儿从小就会摸,会玩,会跟周围环境互动,互动是人类的天性。

  晚点:但 “互动” 是游戏吗?

  王诗沐:其实游戏是非常宽泛的。为什么最早的时候把它定义成 “第七艺术”,现在可能大家不怎么提了,反而越来越往 3A 游戏这个方向去靠?这个是个资本化的结果,我不否认。

  但是一旦游戏的生产门槛降低,你时空打破了,自然会有更好玩的内容,会有大量的个性化的内容涌现出来。

  晚点:你们现在游戏大模型能力下,上限能做到什么?

  王诗沐:坦白讲,我们目前整个游戏大模型的技术还在起步偏起步阶段。现在平台上,超越我们认知的,一个是有用户做出来一个挺好玩的第一人称射击游戏;一个开放世界游戏。

  晚点:你现在怎么回想在网易的经历?

  王诗沐:我自己其实比较少去想。那个时候确实很年轻,我是 86 年的人,网易云上线的时候,我 26 岁,三个创始人之一,确实是有一种春风得意的感觉。

  到了 2016 年,我 30 岁的时候,整个网易云也做起来了,后面的整个增长势能也是挺好的。我也没有觉得荣耀或者是什么,可能比较喜欢沉浸在做产品的感受中。

  那个时候做网易云,我觉得很强的感受是大江大河、整个时代潮流在汹涌;现在,我仍然处于时代洪流之中,但是我淡定很多,我能够很清晰感受到这个潮水的浮浮沉沉,但整个人会看得更加清楚,心智会更加坚定。

  晚点:你在腾讯获得了什么?

  王诗沐:有更多创新的机会。我在腾讯是开始从零去做孵化器,要从战略层面思考,比如为什么选 3D,当时找了几个关键点,我是逐层一点一点去摸索,从零开始。

  在网易云音乐,我虽然是早期的员工,但是网易做音乐这件事情并不是我决策的,这个是丁老板决策的,我是个执行者,但是到了腾讯,我要去想做什么?应该怎么做?还有没有机会和价值?

  这个过程中就会更进一步,中间也会有很多的困难和挫折,然后再复盘。

  晚点:在腾讯的几个产品(小鹅拼拼、幻核)都关了,你觉得算是失败吗?

  王诗沐:如果纯粹从产品角度上来讲,那当然是失败了,对吧?因为最终下线了。

  但我能够辩证地看。因为腾讯是一家很大的公司,他的战略决策不是以产品为单元的。比如说,腾讯需不需要需要电商,我觉得是需要的,但腾讯需不需要小鹅拼拼我觉得要打个问号。所以我会拆分来看。

  包括像幻核也是,我们当时做了半年的时间,营收很可观,其实对于创业公司来讲不得了,但对腾讯这种体量的公司来说,新业务场景还在早期探索阶段、合规边界尚在确立中,所以他要有一个调整,我也可以理解。

  晚点:从大公司做管理,到自己创业,你发生了什么变化?

  王诗沐:我从来不觉得自己是大公司里 “典型” 的人,我其实天生就是一个适合创业的人。我只是阴差阳错。因为我在内陆环境生长起来的,年轻的时候胆子没那么大,眼界没那么开。

  我二十来岁的时候,树立的理想是做个产品总监,年薪 10 万。这个是真事儿,我跟我爸妈都讲过。

  我后面到了 30 岁左右,才开始更加了解自己,我真正人生想追求的并不是金钱,或者是纯粹的地位,我就是喜欢创新、创造,所以我就应该创业。

  22 年下半年出来创业的时候,我第一个感受是我创业晚了。我早就该创业,16 年就应该创业。

  我现在非常快乐,我快乐不是指自己多成功,而是指我整个人的生活状态,我很享受。我并不觉得这些困难、苦恼让我难受。我记得我没创业之前,看到一些文章,有很多人焦虑什么的,我也会焦虑,但是我从来不痛苦。

  晚点:你觉得自己是是个什么样的创始人?

  王诗沐:亲力亲为。我们公司现在没有 HR,HR 就是我,然后有一个财务同学是今年才入职。

  最开始那个公司的工商注册,包括融资都是我自己去跑的,就是给公司省钱。当然不是说我抠门到几百块钱都不愿意出,而是我不觉得这个东西是浪费我的时间、浪费我的精力。

  我反而身体力行,觉得得搞明白公司工商实际上它是个什么东西。我觉得这个应该去做,我们公司现在大概 50% 的员工都是我过往十多年老同事,阿里的、网易的、腾讯的大家互相都有所了解。

  题图来源:Seele 创始人王诗沐