6 月 14 日上午,零一万物 CEO 李开复和清华大学智能产业研究院院长、智源学术顾问委员张亚勤在 2024 年智源大会上就“通用人工智能的关键问题”展开讨论,分享了各自对于大模型在产业中的应用场景及 AGI 未来的看法,由智源研究院理事长黄铁军进行主持。
李开复表示,短期来看,to B 方向原本是具备巨大商业价值,但可惜的是,由于大公司和传统公司接纳度低、大模型降本会抢夺公司员工“饭碗”,以及很多公司为软件付费意愿低等因素,B端市场面临的挑战很大。相较而言,在中国市场走 to C 模式更有机会。
“理论上,to B 是可以马上落地,但实际情况没那么快。”李开复解释说,许多大公司、传统公司看不懂大模型技术,不愿拥抱颠覆式的事物。
李开复还表示,在中国,很多企业没有认识到软件的价值,不愿为软件付费。加之许多大模型公司参与竞标,价格越竞越低,极大地压缩了利润,做一单赔一单。“我们在 AI1.0 看到这个现象,很不幸又在 AI2.0 重现了。”
基于B端市场的残酷现状,李开复称,零一万物会更精挑细选那些上下级员工都接受大模型技术的公司。“零一万物要坚决地做 to C,坚决不做赔钱的 to B。”
张亚勤则认为,当前,AI 大模型技术仍面临三大问题:效率较低,特别是大模型的计算效率低下问题,与人类大脑的高效性形成了鲜明的对比;大模型目前还未能真正理解物理世界,相关的推理能力、透明性以及开复刚才提到的幻觉等问题都还在深入研究中;以及边界问题,现在大模型无法知道“我不知道什么”,这是目前要解决的问题,是它的边界效应。
同时,两位专家对 AGI 的实现整体持乐观态度,他们认为,AGI 的定义因人而异,但关键在于 AI 的能力要超越人类,并具有自我学习和进化的能力。同时随着 AI 能力的提升,失控的风险也在增加,需要现在就开始考虑如何管理这些风险。
而对于如何走C端市场,李开复有一套自己的路线图。沿着从生产力工具到社交产品的方向,他将大模型C端产品划分为六个发展阶段:第一阶段是作为生产力工具,第二阶段是娱乐、音乐、游戏,第三阶段是搜索,第四阶段是电商,第五阶段为社交、短视频,第六阶段是 O2O 产品。
“从 PC 到移动互联网时代,再到 AI 时代,这是不变的定律。”李开复说,因为起步阶段产品要能够赚钱,所以适合作为生产力工具来解决问题,但越往后难度越高,需要的用户量也越来越多,“难度高,机会更大,回报也高。”但 AI 大模型时代与移动互联网时代不同之处在于,C端应用不再单纯由产品经理一个角色做主,还离不开大模型专家和推理引擎专家等一起打磨。
以下是李开复和张亚勤对话全文实录,钛媒体 AGI 在不改变原意下进行了删减整理:
黄铁军:我先提问,近期关于大模型的讨论特别热门,从刚才的报告大家也感受到了大模型的能量以及其在各领域的应用潜力,可以说大模型是至今为止人工智能发展最成功的一个技术方向。想请问两位,是什么原因使得大模型如此成功?还有哪些欠缺的地方需要进一步发展?开复老师先。
李开复:AI 2.0 是有史以来最伟大的科技革命和平台革命,大模型 Scaling Law 的重要性在这个时代得以凸显——人类能够用更多计算和数据不断增加大模型的智慧,这条被多方验证的路径还在推进中,还远没有触达天花板,这点也让大家非常振奋。
第二,大模型的智慧来自于接近无损的压缩,这点也非常重要。上世代的人工智能从业者很难想到今天会把压缩和智能连接在一起。因为 Scaling Law 过程中不能盲目堆更多的 GPU,所以需要有一个方法评估我们有没有越做越好或者哪个方法做得更好。零一万物内部有严谨的方法论,用压缩的理念去评估,让以往漫无目的“炼丹”训模过程变得更系统也更有科学和数学根据。
大模型正面临着一些挑战。比方说,如果“仅仅用更多算力就能把它往前推动”是主要方向的话,就会导致只有那些 GPU 资源丰富的公司和国家能够在这方面胜出。但话说回来,我们已经验证了,很多国内大模型在部分案例里接近或者打平、或者偶尔超过美国的大模型。所以我认为需要专注的是算法和工程创新一体化的推进,以及怎么以这种能力避免进入“盲目堆算力推动模型性能提升”的状态。
当然,目前大模型还直面许多挑战。就像每个技术刚诞生都会有问题,起初大模型也不知道最近一年发生了什么。还有记忆的问题、窗口构成的问题、幻觉问题等等,但我们可以看到的是,当全球如此多聪明的大脑涌入这个领域后,大部分问题不能说被完美地解决,但是都在逐步被攻克的过程中,所以我对大模型的未来相当乐观。
张亚勤:我讲“三个做对了”的和“三个需要改进”的 。
一、三个做对了
首先,规模定律 Scaling Law。规模定律的实现,主要得益于对海量数据的利用以及算力的显著提升。再加上现在的 Diffusion 和 Transformer 架构能够高效地利用算力和数据,使得“飞轮效应”得以正循环。尽管有人质疑 Scaling Law 在 2 到 3 年后是否仍然有效,但我个人认为至少在未来 5 年里,它仍将是产业发展的主要方向。
其次是“Token-Based”统一表述方式。在大模型中,“Token”是一个基本元素。无论是文本、语音、图像、视频,还是自动驾驶中的激光雷达信号,甚至是生物领域的蛋白质和细胞,最终都可以抽象为一个 Token。Token 之间的训练、学习和生成是核心环节,这与我们大脑中的神经元工作原理相似,无论执行何种任务,其基础机制都是相同的。
最后是通用性。这与 Token 紧密相关。现在的通用性不仅体现在文本处理上,还扩展到了多模态领域,甚至可以生成如蛋白质等复杂结构。此外,它在物理世界(如具身智能)和生物世界(如生物智能)中也有着广泛的应用前景。
以上这三个是大模型做对的。
二、现阶段主要问题
第一个,效率较低。特别是大模型的计算效率低下问题,与人类大脑的高效性形成了鲜明的对比。人类大脑拥有 860 亿个神经元,每个神经元又有数千个突触连接,却只需要 20 瓦的能量,重量还不到三斤;而 GPT4 这个万亿参数模型则需要巨大的算力和能源,与人脑相比相差1,000 倍之多。此外,人脑能够根据不同的情境灵活调用不同区域的神经元,而大模型却每次输入一个问题都要调用和激活几乎大量参数。因此,如何借鉴人类大脑的计算方法,在降低计算耗能、提高效率方面进行探索和创新,是一个值得关注的方向。
第二个,大模型目前还未能真正理解物理世界,相关的推理能力、透明性以及开复刚才提到的幻觉等问题都还在深入研究中。有一个重要的问题是,即使我们的大模型做得再好,它在生成式表述与对真实世界的描绘之间仍存在矛盾。因此,我们需要探索如何将生成式的概率大模型与现有的“第一性原理”或真实模型、知识图谱相结合。目前,虽然已经有了一些尝试,如采用 RAG 技术或进行微调,并取得了一定的进展,但我认为这些方法并非根本解决方案。我预测,在未来五年内,将会有一个全新的架构出现,这个架构有望取代目前的 Transformer 和 Diffusion 模型。
第三个欠缺的地方是边界问题。现在大模型无法知道“我不知道什么”,这是目前要解决的问题,是它的边界效应。
黄铁军:谢谢亚勤的“三个做对了”和“三个不足”。刚才开复老师没讲,我想再追加问一下,有些人认为大模型是一个实践、是一个工程,是经验主义做的东西,没有理论基础,说得不好听叫“不靠谱”,不知道你怎么看这个问题?
李开复:我觉得科学和工程缺一不可。如果只做工程,不了解“第一性原理”,没有数学的根据、没有办法评估不同方法的效果,考虑到高昂的算力成本,这样的摸索肯定是做不出一个好模型的。但是如果只是在实验室里雕花,然后写一些不错的论文,期待有工程人才把论文做成产品,这肯定也是不行的。
零一万物的经验是,每个做 AI、做模型的 Researcher 要懂 Infrastructure、都要懂推理、都要知道成本的问题,所以当你需要面对科研问题时,就知道在产品里需要的反应速度有多快,要怎么实现,做完实验就可以确保模型可以得到令人满意的工程结果。训练模型的过程中绝对不只是写 Paper,还要同时考虑怎样系统化、工程化地做数据工程,因为数据的训练、数据的筛选是非常重要的。还有底层的 AI Infrastructure,GPU 这么昂贵,如果把一张当成两张、三张使用,任何公司都会得到好处,所以科技和工程这两方面缺一不可。
黄铁军:谢谢。大家关心 AI2.0,大模型产业化最大的场景在哪里?移动互联网这么多年,To B、To C ,这两个大赛道哪个更有机会?为什么?
李开复:简单来说,在中国 To C 短期更有机会,国外两者都有机会。To C 方面,就像移动互联网、PC 时代里,一个新技术、新平台带来新应用,大模型同样如此,这是巨大的机会,但是这些应用的出现一定是按部就班的。
我认为 AI 2.0 时代会和 PC、移动互联网时代一样,第一个阶段应该是生产力工具,包括信息获取;第二个阶段可能会是娱乐、音乐、游戏,第三个阶段可能会是搜索;再下一个阶段可能会是电商;然后可能会有社交、短视频、O2O 的应用出现。
一个理由就是刚开始应用要能够赚钱、能够解决问题,所以第一波潮流会是生产力工具,但越往后,难度越高——高用户量的应用商业模式往往是先堆积用户再找变现模式,所以应用成本一定要很低,试错难度很大、所需要的投资也更多。
我认为递进的模式不会有特别大的改变,To C 应用会从生产力工具一步步走向短视频类应用。To C 确实会产生大量的用户,但这不是说不能用大模型来做产品,只是在普及顺序上会按照这六个阶段进行。
当然,这个过程中也有挑战,在大模型领域做应用跟 PC、互联网时代不一样,因为推理成本还太贵。最近零一万物提出了 TC-PMF 概念(技术成本✖️产品市场契合度),这个概念是指,当你考虑 PMF 时,还要把技术的需求、实现难度和成本考虑进去。
做应用一定要考虑到刚才这六个阶段谁先谁后、什么时候做、提早做。第二,做应用的时候还要综合考虑到当时的技术够不够好,成本是否足够低,所以大模型 To C 应用不像过去移动互联网时代,产品经理一个人就可以做主,它需要做 Infrastructure、做推理引擎的人、一起打磨 TC-PMF。这件事难度高,但是回报也高,机会也更大。
最后我想讲,在 To C 方面,我不相信技术可以永久领先,事实上技术带来的领先窗口非常短暂,一旦巨头看到你验证了 PMF,他们会有很多方法超越你。一旦你验证了 TC-PMF,要把握时间窗口把品牌打出来,最终胜出的 To C 应用不只是需要有技术优势,还需要在时间窗口内打造持续优势,比如品牌优势,比如社交链,比如用户数据,让用户不能离开你这个平台。在微信强大的时代里抖音能被做出来,就是因为它抓住了这个时间窗口。
再讲一下 To B 的应用。大模型有可能在 To B 方向上带来更大价值,而且能够比 To C 更快实现,但是 To B 这个领域有几个挑战。
第一个挑战是大公司、传统公司不是很敢采取颠覆式技术,大公司会习惯每年增长5% 预算,做和去年一样的事情。
第二个挑战在中国比较严重,许多大公司没有认识到软件的价值,为软件付费意的意识有待进一步提高。现在有许多大模型公司在竞标时越竞越低,做到最后做一单赔一单,都没有利润。我们在 AI 1.0 时代曾见过这个现象,现在它在 AI 2.0 时代又重现了。这种心态导致部分大公司只愿支付很低的价格,大模型公司也只能给出折中的方案,达到惊艳效果的寥寥无几。
零一万物坚决做 To C,不做赔钱的 To B,而是做能赚钱的 To B。所以零一万物在 To B 方面精挑细选,找那种公司上下都愿意拥抱新概念的公司,也为它们设计了 RAG 知识检索、专有云、微调等方案,在国内国外都有尝试。
无论 To C 还是 To B,API 都很重要,最近国内很多模型降价了,零一万物也推出了接入国际 SOTA 成绩 Yi-Large 大模型的 API,也希望有机会可以跟各位合作。这个 API 背后的模型能力接近 GPT-4o,但是价格是 GPT-4 的四分之一,我相信这可以帮助更多公司或者创业者达到所谓的 TC-PMF。
黄铁军:谢谢开复老师对 To B、To C 的分析,很透彻。亚勤,刚才关于 To B 的观点,大家还有一个非常关心的问题,大模型产业的最大场景会在哪里?To B、To C 在什么地方能够落地发挥作用?
张亚勤:在应用和服务层面,先面向消费者(To C)再面向企业(To B)。To B 的周期相对较长,而 To C 的应用产品则可以迅速推出,这与过去的 PC 互联网和移动互联网的发展路径基本一致。在基础设施层,目前真正盈利的主要集中在 To B 领域,特别是在芯片、硬件、服务器等。像英伟达、AMD 等芯片制造商,以及服务器、HBM 存储、InfiniBand 和 NVLink 等相关技术的提供商,他们目前是盈利最多的。
关于 AI 路径,我在过去十年中一直强调三个关键领域:首先是信息智能,其次是物理智能(现在流行的术语是具身智能),最后是生物智能。在具身智能阶段,To B 的应用可能会比 To C 更快落地。然而,在生物智能阶段,情况可能相反,To C 的应用可能会先于 To B 出现。尽管每个领域的具体情况可能有所不同,但总体来看,无论是 To C 还是 To B,都将存在开源模型、商业闭源模型、基础大模型,以及针对垂直行业模型和边缘模型。
黄铁军:具身智能今年特别热,关注度特别高。讲到具身,通常像机器人,人形机器人、轮式机器人是一大类,第二大类是车,也是一个驾驶场景上的具身智能。还有无人机,在空中飞将来也是一种形态。甚至于大家可以想象出更多的身体形态,更多的具身智能可能性。我想请问,你们认为,具身智能这么多可能性里面,到底是热门的人形机器人会先有机会,还是已经有相当多积累的自动驾驶会有机会?
张亚勤:从百度 Apollo 开始有七年、八年时间我一直在从事无人驾驶研究,无人驾驶 L4+ 是具身智能第一个、最大的应用,也会是第一次实现新图灵测试的应用。无人驾驶它本身就是一个开车的特殊机器人。无人驾驶最近有很多好消息,它的安全性已经比人类驾驶要高至少 10 倍,不管是 Waymo 在旧金山的结果,还是百度阿波罗在武汉大范围的商业运营。最早在 Apollo 开始的时候我就要求,自动驾驶安全性一定要比人类驾驶高出 10 倍。
尽管安全性很好,当前无人驾驶仍存在一些挑战,就是它虽然开得安全但不够老练,不够老司机,驾驶太守规矩了,不会超速或压线。无人驾驶要变成主流,要通过新图灵测试的话,需要是好司机,也需要是老司机。我认为无人驾驶在明年会成为第一个真正实现具身智能或者物理智能的 AGI。
另外再讲一点,大模型的推出,帮助无人驾驶解决了很多原来的问题。比如长尾问题、数据生成问题,百度已经积累了 1 亿公里的驾驶数据,1 亿公里虽然已经很多但数据仍然不够,生成式人工智能可以生成很多数据。大模型的应用使得无人驾驶系统能够实现端到端的智能化,同时也意味着无人驾驶会有更高的智能性,还将加速其在实际场景中的落地应用。
李开复:我同意亚勤的分析。在创新工场,我们也投了大概 6 家左右的无人驾驶公司,发展都不错。现在无人驾驶面临的一个巨大机会,就是终于可以落地了。在 L2、L3 阶段,包含城市自动小巴等等场景,无人驾驶都可以真正创造价值,这是很让人欣慰的。到 L4、L5 阶段,要无限制地开到开放场景,全球都面临着挑战。我在美国的时候看到了 Waymo 进展是不错的,依然在往前推进。特斯拉推出的 FSD,虽然不是完全的大模型,但是是用了类似 end to end(端到端)的概念。至于不用 FSD 方案能产生多少产业价值,我希望我们投的5、6 家公司和亚勤的前公司都能够证明,中国能做得很好,也许这就是很大的市场。
过去这一年我专注于零一万物,我没有做自动驾驶的研究,但是我确定 FSD 会带来新的机会。把大模型的概念放到无人驾驶里面,这是我非常期待能够在下一阶段看到的事。但是这需要巨大的投资,不见得适合初创公司来做。
讲到具身智能,它跟亚勤说的一样,是物理世界跟 AI 的结合,这是很重要的。但是我也必须说,大模型是非常适合虚拟世界的,在金融公司的后台、客服等等场景,大模型很快就可以落地产生价值。如果你的需求是软件,直接对接大模型就好了。一旦大模型接入物理世界,就需要面临各种问题,有安全问题、机器问题、机械问题、故障问题等等,难度会大很多倍。
从创业者的角度来说,虽然现在具身智能一时比较热,有一些创业者涌入了,但是对于大部分创业者来说,如果希望短期落地产生价值、能赚钱,肯定还是做虚拟世界要远远容易很多。具身智能是重要的,它可以很好地结合大模型多模态能力,而且一旦具身后就可以产生数据,形成数据飞轮闭环,有很大的想象空间。但是短期要做好,难度很大。
具身智能肯定要走很漫长的道路,而且对于人形机器人我有一些特别的看法。绝大多数应用场景并不需要人形机器人,炒菜机器人应该长得像锅,吸尘器也长得并不像人,没有必要。像是波士顿动力那种很酷的、跳来跳去的机器人,真的会有很多应用场景吗?绝大多数场景几个轮子不是更容易移动吗?很多科学家和创业者都是从小热爱科技,希望能复制一个人,这无可厚非。但是如果你很简单地问 VC,VC 给出的恐怕是更务实更理性的判断。
黄铁军:最近经常有人问我通用人工智能,到底什么时候可以实现?我比较乐观,我讲一下大致时间点,跟开复讲的很一致。信息智能、物理智能和生物智能。在信息智能方面,我认为 5 年左右就可以实现,现在在文本基本已经可以实现了,图灵测试已经通过了。在视频方面,可能还需要几年。所以,5 年之内有可能达到在虚拟世界或者是信息世界。到具身智能或者物理的话,可能需要 10 年。在生物智能,可能还需要 15-20 年,比较长一些。要是三年前问我这个问题,我可能会放 50 年乘2,现在是除2。
李开复:每个领域都还有低垂的果实。再补充一点,如果问我们投了几家机器人,我们投了七八家,但不是具身智能,是能够确实解决一个场景里的应用,而且能够带来价值的机器人。所以,我是相信机器人的,只是具身智能,我同意亚勤的,我们做投资的肯定现在不能去投资 10 年以后才能够发生的事情。
张亚勤:5-10 年。
李开复:我们一旦看到接近 5 就开始投资。
张亚勤:我补充一点,最近经常有人问我,通用人工智能到底什么时候可以实现?我比较乐观,我认为 15-20 年内可以实现,并通过新图灵测试。0 至 5 年内,在信息智能领域,对语言、图像、声音和视频的理解、生成等方面通过新图灵测试。0 至 10 年内,在物理智能领域,实现大模型在物理环境中的理解与操作能力,通过新图灵测试。0 至 20 年内,在生物智能领域,聚焦人体、脑机接口、生物体、制药和生命科学,实现大模型与生物体连结的生物智能,通过图灵测试。要是三年前问我这个问题,我可能会说 50 年实现 AGI,这几年随着大模型的发展,我认为除以2,20 年能实现。
黄铁军:这个通用人工智能,包括今天的大模型或者未来几年能实现的,在信息空间里大模型的认知能力通常的评测水平,比如说到了大学、到了博士、到了专家、到了学者,甚至于科学家,这是一个通用性,不管什么学科都可以做,这是一种理解。但是刚才亚勤讲到,有了身体进入物理世界,甚至进入物理世界的具身智能,跟我们今天讲的通用人工智能又有所不同。也就是大家讲的 AGI。GAI、具有通用性的人工智能和 AI 领域说了这么多年的 AGI 是不一样的。AGI 是要超越人类的,AGI 是有自我意识的,AGI 不仅仅是智能水平超过了人类,而且有自我意识,要有自己的目标、做出自己的判断。你们刚才谈到的是指这样的 AGI 吗,还是只是说前面一种?
李开复:AGI 的定义是因人而异的。如果把 AGI 定义为能做人所能做的一切事情,那么我今天没有办法定义,因为它还有太多未知的东西还没有被解。但是这种定义只把人当作金标准,似乎就是问车什么时候能跟人跑的一样快,但是车在很多场景已经比人跑得快很多了,只是有些场景没法胜任。我个人会说:只要 Scaling Law 继续,只要 AI 一年比一年更聪明,它会多做比如 5 倍的事情,IQ 会提升 20 个点。
但是,它聪明的方向,能做的事情也许是人从来都不能做的,不见要能做人做的每件事。因为我是做投资和创业的,我想看到的是巨大的商业价值。从这个角度来说,我们不会太纠结是不是能够百分之一百做到人类能做的事。如果世界上有一万件事情,AI 在 9000 件上做得比人好,有 1000 件人做得比较好,这样也挺好的,要给人留一点空间嘛。
谈到虚拟跟物理世界,我还想再补充一点。在虚拟世界里,Agent 还是非常重要的,因为人的 Intelligence 不只是回答问题,是要知道“怎么把事情做出来”。而且如果是谈创造商业价值,Agent 帮你把东西买了,帮你把事情解决了,这个是有很大的商业价值,也是贴近 AGI 的重要一步。
张亚勤:我刚才讲的 20 年实现 AGI,不包括拥有意识或情感。我对 AGI 的定义有三点,第一是要有巨大的能力,要能在大部分的任务要比人类强,而不是所有任务均超越人类。第二,它是必须要是通用的,过去每个任务都要用不同的模型,但是 AGI 是要有一个通用的大底座,当然可以有小的垂直模型,但它本身具有通用性。第三是不断升级、学习、进化,就像人类一样。我不认为现在的 Scaling Law,或者我们现在做的研究会让 AI 产生意识,并且我也不认为我们应该从事这方面的研究。我们还是要解决真正的问题,把人工智能作为我们的工具、我们的延伸、我们的 Agent,而不是另外一种物种。
黄铁军:从工程、从应用、从商业、从所有的角度,可能没人想去做一个超越人类的、有自我意识的 AGI。但是最近 OpenAI 发生的事情,从去年底开始,IIya 和 Altman 的争论观点就是两点:你不想做但是它们可能就要出来了,出来之后我们就面临着失控的巨大风险。你们认为这种风险存在还是不存在?
李开复:我觉得存在的,但概率不会很高。如果我们越来越依赖 Reward model 完全让 AI 自己找路径的话,发生的概率或许会增高。当然,当前大模型的训练方法还不至于让大家担忧过度。不管在哪个时代,我认为技术是中性的,每个科技时代有技术带来的“电车难题”,最后人类都用了有效的方法解决了。所以,我对此是持谨慎乐观的态度,短期最担忧是坏人用它去做坏事。中长期看,我仍然建议尝试用“以子之矛攻子之盾”——用更好的技术解决技术带来的挑战,让“AI for Good”,真正造福全人类。
张亚勤:随着 AI 的能力不断扩大,风险也在不断扩大,所以现在考虑到未来的风险是很重要的。我不担心所谓的 AGI 会出现意识,会掌控人类。我担心的是如果现在不重视 AI 的治理,当 AGI 达到一定的能力并被大规模部署,那么可能会有失控风险。目前 AI 仍存在可解释性问题,未来机器人数量可能会比人要多,那么当大模型被用到基础物理设施、金融系统,包括国家安全,军事系统等方面,就可能会有失控的风险。因此我主张一定要现在开始把 AI 治理重视起来。对于技术发展我永远持乐观态度,我认为我们人类有两种智慧,一种是发明技术的智慧,一种是引导技术走向的智慧。我认为我们会达到平衡,但前提是现在要采取行动。
黄铁军:谢谢两位的高屋建瓴的真知灼见。谢谢!
(本文首发于钛媒体 App,作者|林志佳,编辑|胡润峰)