对话昆仑万维首席科学家颜水成:大模型的三个共识与三个分歧

  出品|网易科技《态度 AGI》对话栏目

  作者|丁广胜

  大模型产业,热闹非凡,也争论不断。共识有三,Transformer 和 MOE 架构的能力、Scaling Law 的潜力、视频生成的前景。

  分歧也不少。Transformer 是否是 AGI 的最终架构、大模型的监管问题、模型的商业化路径和效率提升。

  在昆仑万维兼天工智能首席科学家颜水成看来,共识也好,非共识也罢,大模型要真正迎来“奇点”时刻,还需要三点突破:

  “一是实现大模型在更多实际应用中的成功落地,能够大规模解决实际问题并产生经济效益;二是建立完善的 AI 伦理和监管框架,确保 AI 技术的发展在可控和安全的范围内;三是技术创新持续突破,如数据处理、模型架构等方面不断进步。”

  颜水成长期深耕人工智能产业,是横跨学界和产业界融合的代表性人物,他于一年前加入昆仑万维,看重昆仑万维清晰的产品矩阵。

  “我在多家公司从事过 AI 相关的研究工作,我始终认为合理的产品布局至关重要。我更倾向于选择那些能够用产品引领技术研发的公司,这样技术能够有的放矢,与产品互相促进,从而增加产品成功的概率。”

  过去一年,颜水成带领团队成立了 2050 全球研究院,致力于将产品、研发和研究团队通过六个大模型有机连接起来。

  3 月 29 日,他们与国际顶尖高校合作开源了数字智能体研发工具包 AgentStudio,为研究人员和开发者提供了一个完整覆盖智能体开发流程的综合性平台。

  4 月 29 日,昆仑万维 2050 全球研究院联合新加坡国立大学、新加坡南洋理工大学团队发布并开源了 Vitron 通用像素级视觉多模态大语言模型。这款重磅的视觉多模态模型支持从视觉理解到视觉生成、从低层次到高层次的一系列任务,解决了图像与视频模型割裂的问题。

  6 月 25 日,他们与新加坡南洋理工大学合作开发了Q算法,大幅提升了现有大模型的推理能力。Q*算法的开发使小模型的推理能力得以接近甚至超越参数量大几十倍、上百倍的模型。

  7 月 3 日,他们联合北京智源人工智能研究院、新加坡南洋理工大学、北京大学等机构提出了通用计算机控制框架 Cradle,使 AI Agent 无需训练即可像人一样直接控制键盘和鼠标,实现在任意开闭源软件上的交互。

  节奏不可谓不快。

  而要问颜水成花最多时间的地方是什么,他作答:

  “原生语音交互和视频生成技术。我认为原生语音交互是下一代 AI 应用的关键,它能大幅简化人机交互的方式,让人与 AI 或设备的沟通更加自然和高效,从而大幅增加 AI 产品的用户基数。这种交互方式有望改变 AI 智障标签,使其真正成为智能助手。”

  视频生成也是重中之重,颜水成认为,视频生成技术的进步将彻底革新内容生产的方式,极大提高创作效率。

  至于多模态的话题,他说多模态的终极目标就是“all-modality-in, all-modality-out”,即输入和输出涵盖所有模态,而核心在于生成的内容必须符合现实世界的逻辑和物理定律。这样的能力能够让模型更接近于人类对世界的理解和互动方式。

  在访谈中,颜水成还谈及大模型同质化问题,他提到,随着语言模型规模的不断扩大和数据量的增加,训练大模型的成本逐步超出大多数小公司的承受范围。同时,开源大模型的性能也在快速提升,使得从零开始训练一个全新大模型的必要性越来越低。

  “因此,越来越多的公司将选择持续训练(continual training)和开发高效小模型,这自然导致模型的同质化。从目前已经公开的开源模型来看,模型本身的差异性并不显著,更多的差异体现在数据选择和一些微创新上。”

  他认为,这种情况决定了大模型的发展趋势会趋向同质化,这是市场发展和技术资源分配下的必然结果。

  以下为网易科技对话颜水成实录(经整理):

  网易科技:您去年 9 月宣布加入昆仑万维,一年过去了,目前感受如何?有什么不一样?

  颜水成:我在多家公司从事过 AI 相关的研究工作,我始终认为合理的产品布局至关重要。我更倾向于选择那些能够用产品引领技术研发的公司,这样技术能够有的放矢,与产品互相促进,从而增加产品成功的概率。在我加入之前,昆仑万维已经有了相对清晰的产品矩阵,包括搜索、音乐、游戏、社交等,这些产品部分已经有了原型,部分已经面向用户发布,对技术的需求非常明确,这与我对于技术与产品协同发展的理念高度契合。

  其次,昆仑万维 88% 的营收来自海外市场,这与我的职业背景非常契合。由于我曾在新加坡工作多年,对海外业务的特点有着深入的了解,这让我对昆仑万维在全球范围内的布局更有信心。此外,昆仑万维的创始人周亚辉在业务领域的前瞻性和在投资领域的独到眼光,眼光十分独到,也让我对公司的未来充满期待。

  当时入职时,我感到非常兴奋。现在一年过去了,昆仑万维依旧保持着“产品引领技术”的特点,并且还新增了 AI 短剧方向的布局,这也正是我多年来的研究领域之一,因此我的初衷依旧保持不变。

  网易科技:您加入昆仑万维的一个原因是,昆仑万维是少数打通了研究、研发到产品链条的通用人工智能企业。那到目前来看,你们做的事情是否符合预期?过去一段时间取得了哪些成果?

  颜水成:过去这一年,我们为完善研究、研发和产品的协同链条,成立了 2050 全球研究院,致力于将产品、研发和研究团队通过六个大模型有机连接起来。这一年,我们在研究上取得了一系列令人满意的成果,充分展示了研究对产品的推动作用。

  3 月 29 日,我们与国际顶尖高校合作开源了数字智能体研发工具包 AgentStudio,为研究人员和开发者提供了一个完整覆盖智能体开发流程的综合性平台,极大地提升了开发效率,让构建专属数字智能体变得更加简单、高效和灵活。

  4 月 29 日,由我带队,昆仑万维 2050 全球研究院联合新加坡国立大学、新加坡南洋理工大学团队发布并开源了 Vitron 通用像素级视觉多模态大语言模型。这款重磅的视觉多模态模型支持从视觉理解到视觉生成、从低层次到高层次的一系列任务,解决了图像与视频模型割裂的问题,实现了图像和视频内容的统一处理,为下一代通用视觉大模型的发展奠定了基础,推动了大模型迈向通用人工智能(AGI)的进程。

  6 月 25 日,我们与新加坡南洋理工大学合作开发了Q算法,大幅提升了现有大模型的推理能力。在 GSM8K 数据集上,Q使 Llama-2-7b 的准确率达到 80.8%,超越了 ChatGPT;在 MATH 数据集上,Q帮助 DeepSeek-Math-7b 实现了 55.4% 的准确率,超过了 Gemini Ultra;在 MBPP 数据集上,Q帮助 CodeQwen1.5-7b-Chat 提升至 77.0% 的准确率,显著缩小了与 GPT-4 的编程水平差距。Q*算法的开发使小模型的推理能力得以接近甚至超越参数量大几十倍、上百倍的模型,为未来的高效 AI 发展指明了方向。

  7 月 3 日,我们联合北京智源人工智能研究院、新加坡南洋理工大学、北京大学等机构提出了通用计算机控制框架 Cradle,使 AI Agent 无需训练即可像人一样直接控制键盘和鼠标,实现在任意开闭源软件上的交互。Cradle 是第一个能同时操作多种商业游戏和软件应用的 AI 框架,相关论文和代码均已开源,为通用人工智能的进一步发展提供了强有力的支持。

  此外,研究院还在 MOE(Mixture of Experts)模型架构上做出了一系列创新,将计算效率提升了 100%,并成功将部分成果应用于公司的 MOE 大模型,使昆仑万维成为国内最早将 MOE 模型应用于业务的公司之一。

  总的来说,过去一年的成果充分验证了昆仑万维在研究、研发到产品的全链条打通模式的有效性,也让我对未来的研究充满信心。

  网易科技:那在昆仑万维有面临什么挑战吗?

  颜水成:我们面临的主要挑战是如何高效地将前沿研究转化为有市场价值的产品。为此,我们优化了跨部门协作和沟通机制,显著提升了团队效率,使研究成果能够更快地应用于产品中。然而,市场需求变化和技术落地速度的平衡仍需不断调整。我们还需加强对市场趋势的把握,确保研究方向与实际需求对接,同时加大对团队成员的培养与支持,提升整体能力。

  总体而言,这一年昆仑万维的务实精神和团队之间的紧密合作让我感触深刻,虽有挑战,但每个挑战都推动我们不断进步,我对未来充满信心。

  网易科技:您在新加坡,你们内部如何做好协作?比如,平日您和 CEO 方汉先生是如何交流的?

  颜水成:虽然我的工作地点主要在新加坡,但每次回北京,我都会和同事们线下沟通交流。这种面对面的交流非常宝贵,不仅能相互学习,还能激发新的想法和思路。昆仑万维的团队氛围非常开放,大家都非常乐于分享彼此的进展和心得,这对推动团队的整体创新非常有帮助。

  方汉先生是一位非常特别的 CEO,他不仅深入了解技术,还保持着亲自读论文、写代码的习惯,这在管理者中非常难得。我个人喜欢用数学和公式推动研究,而方汉先生坚持写代码和大量阅读论文,这种精神非常值得我学习。我们经常讨论最新的研究成果和论文,方汉先生的物理系背景让他对问题的理解非常独到,我们之间的交流不仅限于 AI 技术,有时也会探讨“世界的起源”“AI 的未来终局”等更深层次的问题。这种跨学科的交流拓宽了我们的思维,也为研究带来了不同的视角。

  总体来说,和同事们,尤其是方汉先生的交流,让我感受务实的创新精神,这对个人和团队的发展都有着非常积极的影响。

  网易科技:目前您花最多时间研究的问题是什么?

  颜水成:目前我在 AI 领域投入最多时间的研究方向是“原生语音交互和视频生成技术”。我认为原生语音交互是下一代 AI 应用的关键,它能大幅简化人机交互的方式,让人与 AI 或设备的沟通更加自然和高效,从而大幅增加 AI 产品的用户基数。这种交互方式有望改变 AI“智障”标签,使其真正成为“智能助手”。

  视频生成同样是我关注的重点领域。视频已经成为当今获取信息的主要途径之一,视频生成技术的进步将彻底革新内容生产的方式,极大提高创作效率。当视频模型发展到能够模拟物理世界时,游戏将不再需要传统的 3D 引擎支持,许多实验也将可以在虚拟环境中进行,影视创作将变得触手可及,成为每个人都能掌握的基本技能。

  这些技术的进步不仅能突破现有的行业瓶颈,还将改变人们的生活和工作方式。虽然这些场景看似遥远,但技术正在快速发展,这些变革正一步步向我们走来。我相信,随着原生语音交互和视频生成技术的不断成熟,我们将看到一个更加智能、高效且充满创意的世界。

  网易科技:您曾在一次交流中谈到,在座的同行,肯定在关键技术和经验上的分享有所保留,不然无法解释为什么产品这么好。那昆仑万维,现在有什么正在研究的或比较看好的新方向吗?

  颜水成:从公司竞争力的角度来看,技术分享有所保留是合理的。当前行业内最常见的保留方式是开源模型但不完全开放数据,特别是那些对模型表现至关重要的数据部分。昆仑万维一直以产品为核心,竞争力主要体现在用户粘性上,因此在技术和数据分享方面相对开放,我们的语言大模型和许多数据集都进行了开源和分享。

  然而,一个成功的模型不仅仅是技术和数据的堆积,更是经过无数次试错和调整的成果。这些试错过程中的经验和细节往往是最宝贵的,也是难以完全分享的部分。正是这些不断优化和改进的过程,赋予了我们产品和模型超越竞品的竞争力。我们的“杀手锏”更多体现在这些细节和迭代中,而这些往往是模型比其他产品更为强大的原因。虽然具体的技术细节不便完全透露,但大致方向就是通过持续的实验、优化和对用户需求的深刻理解,不断提升模型和产品的表现。

  网易科技:昆仑万维特别重视多模态,您怎么评价昆仑万维在多模态方面的进展?

  颜水成:模态是实现通用人工智能(AGI)的重要路径,因为人类的智能本质上就是多模态的,融合了视觉、听觉、语言等多种感知和认知能力。昆仑万维致力于多模态研究,主要是因为公司的核心产品本身就需要多模态技术支撑,比如 AI 音乐和 AI 短剧等产品,这些都要求能够处理和生成不同类型的数据。

  公司在多模态技术上的投入是非常必要且具有前瞻性的。目前,公司的 AI 音乐产品在技术层面达到了世界级水准,具备非常强的竞争力,并在不断迭代中提升用户体验。同时,公司在短剧创作方面推出的 SkyReels 具有极大的想象空间,这类产品有望成为 AI 2.0 时代的爆款。总体来看,昆仑万维在多模态领域的进展快速且成效显著,为公司未来的产品创新和市场竞争力打下了坚实的基础。

  网易科技:多模态的终极形态可能就是世界模型,您怎么看?

  颜水成:我个人非常认同这一观点,并且对世界模型的理解也在不断演进。总体来说,多模态的终极目标就是“all-modality-in, all-modality-out”,即输入和输出涵盖所有模态,而核心在于生成的内容必须符合现实世界的逻辑和物理定律。这样的能力能够让模型更接近于人类对世界的理解和互动方式。

  视频作为当今人类获取信息的主要方式,视频生成技术的发展有望彻底改变内容生产的方式,大幅提升创作效率。当视频模型发展到可以逼真模拟物理世界时,游戏可能不再需要传统的 3D 引擎,许多实验和模拟将可以在虚拟环境中进行,而影视创作也将变得更加普及,甚至成为每个人的基本技能。虽然这些看似是未来的场景,但技术正一步步将它们变为现实,视频生成模型的火热正是这一趋势的重要体现。

  网易科技:AI 大模型、AI 社交、AI 游戏、AI 搜索、AI 视频和 AI 音乐等业务矩阵,都是昆仑万维布局的领域。在您看来,这些尝试是多,是少?什么才真正是昆仑万维在 AI 领域的核心竞争力?

  颜水成:我认为这些尝试是非常合理的。每个产品的潜力各有不同,有的可能最终只能发展到独角兽规模,而有的则有机会成为更大的业务。不仅每个探索的方向都具备成长为优质业务的潜力,更重要的是它们之间的技术能够相互借鉴和共享,甚至可能催生出全新的业务形态。

  昆仑万维在 AI 领域的核心竞争力实际上在于这些业务背后共享的六个大模型:语言大模型、多模态大模型、音乐大模型、语音大模型、视频大模型和 3D 大模型。这些模型不仅支撑着现有的业务发展,还为未来的创新提供了技术基础。通过这些底层技术的共用和迭代,昆仑万维能够迅速响应市场变化,并不断推动产品的演进和升级。

  网易科技:有观点称,昆仑万维从游戏转型 AI,跨度很大,是在追热点。

  颜水成:我认为昆仑万维的转型是寻找“第二增长曲线”而非追热点。优秀的公司不会仅满足于现有业务,而是会在成熟业务的基础上积极探索新的增长点,确保公司在快速变化的市场中保持活力和竞争力。AI 正是昆仑万维在游戏和娱乐业务基础上开辟的新赛道,是对未来增长的前瞻性布局。

  昆仑万维多年来在游戏和娱乐领域积累了丰富的 2C 产品的经验,这些是新的 AI 产品的根基。AI 作为我们的第二增长曲线,不仅为昆仑万维带来了新的市场空间,还为公司未来的发展注入了新的动力。

  网易科技:昆仑万维“All in AGI 与 AIGC”战略,从您的角度来看,这场战要想打赢,决胜战役是什么?

  颜水成:要打赢这场战,关键在于公司 AI 产品的商业模式是否成立。决胜的核心战役是既能准确把握用户的真实需求,又能持续提升 AI 模型的能力,同时有效降低模型的推理成本。降低成本不仅需要算法和系统层面的持续创新,还需要在芯片领域取得突破。

  为此,昆仑万维在 AI 产品、AI 研究、AI 基础设施(AI Infrastructure)和 AI 芯片等多个方面进行了全面布局。我们不仅专注于优化算法和系统,还积极推动芯片技术的创新,以支撑 AI 模型的高效运行。通过这样全方位的部署,我们力求打造从底层技术到应用场景的完整生态链,以确保在 AGI 与 AIGC 领域占据优势,真正实现商业化落地。

  网易科技:现在各家大模型有的趋于同质化了。

  颜水成:我认同这一观点,而且未来同质化现象可能会更加明显。随着语言模型规模的不断扩大和数据量的增加,训练大模型的成本逐步超出大多数小公司的承受范围。同时,开源大模型的性能也在快速提升,使得从零开始训练一个全新大模型的必要性越来越低。因此,越来越多的公司将选择持续训练(continual training)和开发高效小模型,这自然导致模型的同质化。

  此外,从目前已经公开的开源模型来看,模型本身的差异性并不显著,更多的差异体现在数据选择和一些微创新上。这种情况决定了大模型的发展趋势会趋向同质化,这是市场发展和技术资源分配下的必然结果。

  网易科技:现在 AGI 还没有一个确切的定义标准,您认为今天的国内大模型市场有哪些共识与非共识?在您看来,何时才是“奇点时刻”。

  颜水成:目前国内大模型市场存在几大共识:

  1. Transformer 和 MOE 架构的能力:大家普遍认可 Transformer 模型架构和 MOE 结构具备足够的拟合能力,能够充分学习和理解现有的大量文本数据。

  2. Scaling Law 的潜力:大家一致认为 Scaling Law 还没有到极限,进一步提升模型性能的关键可能在于合成数据(synthetic data),这一方向正在被广泛关注和探索。

  3. 视频生成的前景:视频生成被认为是未来的一个重要方向,大家普遍看好其发展潜力,认为其大爆发指日可待。

  在非共识方面,也有不少分歧:

  1. Transformer 是否是 AGI 的最终架构:虽然 Transformer 目前是主流架构,但行业对其是否会成为 AGI 的最终模型存在分歧。虽然有新的架构被提出,但还未能真正动摇 Transformer 的核心地位。

  2. 大模型的监管力度:不同国家和地区对大模型的监管政策存在较大差异,行业对如何平衡创新与监管、保障数据安全和隐私的看法也并不一致。

  3. 模型的商业化路径和效率提升:在如何更高效地实现模型的商业落地和持续优化方面,行业内也存在不同的思路和探索路径。例如,有的企业聚焦于降低推理成本和模型优化,而有的企业则侧重于数据垂直化和行业定制化,这种策略上的差异也体现出非共识的一面。

  要真正迎来“奇点”时刻,需要在几个关键方面取得突破:一是实现大模型在更多实际应用中的成功落地,能够大规模解决实际问题并产生经济效益;二是建立完善的 AI 伦理和监管框架,确保 AI 技术的发展在可控和安全的范围内;三是技术创新持续突破,如数据处理、模型架构等方面不断进步。只有在技术成熟、商业模式验证、社会接受度提升等多个维度同时取得进展,行业才能迎来真正的“奇点”时刻。

  网易科技:对于目前中美 AI 的差距,有人认为中美不相上下,有人认为中国明显还是落后于美国。

  颜水成:关于中美在 AI 领域的差距,我认为两国各有优势,并不完全是简单的“领先”或“落后”可以概括。美国在基础研究、顶尖人才和核心算法创新方面的积累深厚,拥有全球领先的 AI 企业和学术机构,这使得美国在技术创新和前沿突破上占有优势。而中国在应用层面、数据规模和市场落地速度方面表现突出,尤其是在 AI 技术的实际场景应用和商业化上进展非常快。

  中国的优势在于庞大的数据资源和市场规模,能够迅速将 AI 技术转化为实际应用,推动了产业的快速发展。同时,国内的 AI 企业和研究机构也在不断加大投入,技术水平在很多领域已经逐渐缩小差距。

  未来,两国在 AI 领域的竞争和合作将继续推动全球 AI 行业的发展。我相信,通过不断努力和创新,中国有机会在更多的 AI 领域取得突破,与国际领先水平齐头并进。

  网易科技:这几年经历过认知层⾯⾃我颠覆的时刻吗?

  颜水成:和很多人一样,ChatGPT 的出现对我来说是认知层面的一次颠覆时刻。它迅速让语言模型成为 AI 领域最核心和最有价值的课题,展示了 AI 在某些任务上真的可以超越人类。当时我意识到,作为研究者,一定不能置身于 AI 最前沿的课题之外,因为很难再找到比语言大模型更值得深入的研究方向。恰逢那时我刚从 Sea 集团离开,于是选择加入智源人工智能研究院,深耕这一领域。

  另一个自我颠覆的时刻是 Sora 的出现。原本认为不可能实现的任务,却被不断突破,这让我相信世界模型的潜力是真实存在的。Sora 的出现不仅验证了这一可能性,也预示着视频产业及其他领域将迎来巨大变革。

  对于我的研究而言,目标始终是“Know More About Intelligence”。尽管有观点认为研究者应坚守自己的领域,不应追逐风口,但我的选择是始终站在 AI 发展的最前沿。这两次认知上的颠覆让我毫不犹豫地拥抱这些变化,因为它们带来了了解智能本质的全新机会。