奇月发自凹非寺量子位公众号 QbitAI
语言模型的发展已很难有大的突破了。
这是 LeCun 最新访谈中给出的断言。
头戴 Meta 爆火智能眼镜,LeCun 再次表示人类距离 AGI 的时间没有那么近,“大约在5-10 年”,对语言模型发展的判断更是不乐观。
未来在哪?还是得看世界模型
未来 AI 需要情感、视觉训练,能够理解物理环境的世界模型。
而 AI 发展的关键是啥?开源,Llama 之于 AI 就像是 Linux 之于互联网。
如果 Llama 未来可以发展成一个全球的、分布式的 AI 计算平台,可以大大促进 AI 的发展。
此次访谈在约翰霍普金斯大学布隆伯格中心进行,主持人是 Vox Media 的卡拉·斯威舍(Kara Swisher)。
在不改变原意的前提下,量子位对访谈的重点内容进行了梳理。
更智能的 AI 需要情感和视觉能力
Q:你获得了 2024 年 Vin 未来奖,在获奖感言中你提到,AI 的学习方式不像人类或动物,它们没有从物理世界中获取大量的视觉观察,但你一直在努力实现这一点。
LeCun:我们将会有一些系统,它们会像人类和动物一样高效地学习新技能和新任务,目前我们还无法用机器复制这一点。
我们无法制造出足够聪明的家用机器人,原因很简单,因为我们训练的 LLM 和机器人都是基于所有公开可用的文本,大约有 20 万亿个单词,每个单词大约由三个字节表示,所以大约是 6 乘以 10 的 14 次方个单词。
心理学家会告诉你,一个四岁的孩子总共醒着的时间是 16000 小时,视觉信息以每秒大约 2 兆字节的速度进入孩子的大脑。我们来算一下,我们有 100 万到 200 万根视神经纤维,每根每秒大约携带一个字节,我们有两只眼睛,所以大约是每秒 2 兆字节。
这样计算,16000 小时就是10 的 14 次方字节,这与最大的 LLM 通过文本看到的数据量相同。我们要花上几万年才能读完这些文本。这告诉我们,我们永远不会仅仅通过训练文本达到人类水平的 AI,我们必须训练感官输入
基本上,视觉输入是无限的,16000 小时的视频大约是 YouTube 上 30 分钟上传的视频总时长。我们拥有的视频数据比我们能处理的要多得多。因此,未来几年 AI 要取得下一个级别的进步,最大的挑战就是让系统通过观看视频并互动来理解世界是如何运作的。
这个问题还没有解决,但我认为在接下来的五年里,很有可能取得重大进展,这就是为什么你会看到所有这些公司开始制造人类机器人。他们还造不出足够聪明的机器人,但他们相信在未来五年内 AI 会取得足够的进步,到时候这些机器人就可以卖给公众了。
我们设想在未来几年的构建蓝图中,AI 系统将具有情感,这是这些系统设计的基本组成部分。为什么它们会有情感呢?因为它们将由目标驱动,你给它们一个必须完成的任务,它们的目的是在硬编码到它们设计中的约束条件下完成这个任务。
为了做到这一点,它们需要几个组件。首先,它们需要一种方法来确定我们给它们的目标是否已经完成。此外,它们还需要一个我们称之为世界模型的东西,这是我们所有人在前额叶皮层中都有的东西,它允许我们想象我们行为的后果是什么,它让我们能够规划一系列行动来完成一个特定的目标。
如果你有能力提前预测一系列行动将产生什么,那么你就可以预测一个目标是否会得到满足,以及预测结果会是好是坏。如果你预测结果会很糟糕,你会感到恐惧;如果你预测结果会很好,你会感到兴奋。所以,预测然后行动以完成这些预测的能力,产生了相当于情感的东西。
因此,足够聪明的 AI 系统,能够推理和规划并拥有世界模型的 AI 系统,将具有情感。
Q:这将产生广泛的影响,可能会改变学习方式,改变一切,让每个人都相处得更好。但是,仇恨、功能障碍、孤独等问题仍然存在,你怎么看待这些事情?
LeCun:我不是亿万富翁,我首先是一名科学家,如果没有某种程度的科学诚信,我无法面对镜子中的自己。科学的全过程就是你必须接受你可能会错的事实,正确的想法来自于多种观点的碰撞和不同意的人。
我们看看现实,人们说 AI 会摧毁社会,因为我们会充斥着虚假信息和生成的仇恨言论等等,但我们根本没有看到这种情况。事实上,人们制造仇恨言论,制造虚假信息,他们试图以各种方式传播,但我们最好的防御措施就是 AI 系统。
我们需要的是更多的 AI 技术掌握在好人手中,而不是坏人手中。
语言模型很难再提升,未来每个人都会有 AI 助手
Q:你刚才说自回归 LLM 正在达到性能上限,下一代人工智能系统和大语言模型有什么不同?
LeCun:过去有些人认为,像 GPT 这样的 LLM,只要扩大规模,在更多的数据上进行训练,用更多的计算能力,人类水平的智能就会从中产生。我从来不相信这个概念。llya 曾经是这个概念的著名信徒,不过他也放弃了。
这些系统的性能已经达到了上限,因为我们基本上已经用尽了所有公开可用的文本数据来训练这些 LLM,不可能再得到比这更多的数据了。所以人们开始生成合成数据之类的东西,但这样不可能将性能提高 10 倍或 100 倍
LLM 被称为大型语言模型,因为它基本上是被训练来预测文本中的下一个单词,这些系统实际上是在预测单词的概率分布,你可以用它来生成文本。这就是自回归部分。
但无法保证所产生的单词序列会有意义,有可能会产生胡言乱语或编造东西。所以很多行业都在努力寻找一种方法,基本上是通过人类参与来训练系统,让它们执行特定任务而不产生无意义的内容。
我们正在研究的是下一代人工智能系统,它不仅仅基于预测下一个单词。
当它们不知道答案时,它们可以查询数据库或搜索引擎。你需要有能够检测系统是否知道答案的系统,然后可能生成多个答案,然后你知道挑选哪些答案是好的。
Q:上周 Meta 发布了 MetaMotivo,它可以制造看起来更像活人的数字人。这好像是在尝试让元宇宙再次成为现实,你能告诉我它到底是什么吗?因为你们在这些事情上投入了大量资金。
LeCun:我现在正戴着智能眼镜,我们最终将围绕智能眼镜或其他智能设备展开工作,它们将配备人工智能助手,我可以通过它跟 AI 交流。这些设备将在我们的日常生活中协助我们,我们希望这些系统具有人类水平的智能水平,甚至在许多方面具有超人的智能水平。
但我们离那个目标还很远。不是几个世纪,也可能不是几十年,但可能是几年。LLM 可以通过律师考试,或者通过一些大学考试。但家用机器人还不能完全打扫房子,清理餐桌,洗碗。我们不是不能制造机器人,而是无法让它们足够聪明、让它们理解物理世界。事实证明,物理世界对 AI 系统来说要复杂得多。
这些系统最终将能够规划一系列行动以实现特定目标,这就是我们所说的Agent。一个 Agent 系统是一个可以规划一系列行动以达到特定结果的系统。现在大家谈论的代理系统实际上并没有这样做。
Q:Meta 还在开发AI 搜索引擎,我猜你们是想超越谷歌搜索?
LeCun:一个智能助手的重要组成部分当然是搜索。你搜索事实,并链接到这些事实的来源。这样,与你交谈的人就会信任这个结果。所以搜索引擎是完整 AI 系统的一个组成部分。
但归根结底,目标不是直接与谷歌竞争,而是服务于那些想要 AI 助手的人。
未来每个人都会随时有一个AI 助手,这将成为一个新的计算平台。以前我们称之为元宇宙,但这些眼镜最终会有显示器,增强现实显示器。已经有了这方面的演示,比如猎户座项目。我们现在可以把它做得足够便宜,可以出售了。
Q:现在人力助手的成本要低得多。目前,Meta 预计将花费 380 亿至 400 亿美元,谷歌表示将超过 510 亿美元,分析师预测,微软的支出将接近 900 亿美元。你会担心被超越吗?你认为这是一项值得的投资吗?
LeCun:我不这么认为。我没有在 Facebook 成立之初就接受这份工作,所以不要问我这个问题。但这是一个长期的投资,你需要基础设施才能以合理的速度为越来越多的人运行这些 AI 助手。
目前有 6 亿人使用 Meta AI,开源引擎 Llama 已经被下载了 6.5 亿次,这是一个惊人的数字。在世界各地有 85000 个项目衍生自 Llama,都是公开可用的,大部分都是开源的。很多这些项目基本上都是在训练 Llama 说一种特定的语言,比如来自印度的语言。
我不认为这笔投入是冤枉的,因为将来会有很多人每天使用这些 AI 系统,在一两年内会有很大增长。而这些系统如果更强大,就会更有用,同时计算成本就越高。所以这项投资是基础设施的投资。
Llama 就像 AI 界的 Linux
Q:Meta 最近发布了 Llama3.3,你觉得它的主要作用是什么?和其他公司的封闭模型对比起来有什么特点?
LeCun:Llama 和大多数其他模型的主要区别在于它是免费的和开源的。从技术上来说,开源软件就是带有源代码的软件,你可以修改它、自己编译,你可以免费使用。而且,在大多数许可证下,如果你对它做了一些改进,并且你想在一个产品中使用它,你必须以源代码的形式发布你的改进,这样就使得开源项目能够非常快速地发展,多年来这一直是一种成功的软件分发方式。
整个互联网都运行在开源软件上,世界上大多数计算机都运行在Linux上,除了少数桌面电脑和一些 iPhone 之外,其他所有的计算机都是这样。Linux 非常成功,原因是它是一个平台,人们可以修改它,让它更安全、更可靠等等,让它能够在各种硬件上运行。这并不是设计出来的,而是市场力量自然推动的。
在 AI 领域,判断某物是否为开源变得复杂,因为构建 AI 系统首先要收集训练数据,其次要在这些训练数据上训练所谓的基础模型。那个训练代码和数据通常是不公开的。例如,Meta 不公开 Llama 模型的训练数据或大部分训练代码。
然后你可以分发训练好的基础模型,比如 Llama。它开源了代码,你可以在任何地方运行该系统,并且还可以进行微调。你不需要支付费用给 Meta,也不需要向他们询问,你可以自己做这些事情。但这有一些限制,主要是由于法律环境的原因。
大型模型很多都是封闭的,比如 OpenAI、Anthropic 和 Google,这可能是因为他们想获得商业优势,比如你想直接从这种类型的产品中获得收入,并且你认为自己或者可以领先于技术,那么可能就有理由保持封闭。
但对于 Meta 来说,Meta 的 AI 工具是一整套体验的一部分,这些体验都是靠广告收入来资助的,所以 AI 不是主要的收入来源。另一方面,我们认为平台会发展得更快,事实上我们已经看到了 Llama 平台促进了更多的创新。有很多创新是我们没有想过、或者我们没有办法做到,但人们有了 Llama 模型之后,他们能够进行实验,然后提出新的想法。
Q:有很多人批评说 Meta 之前在 AI 竞争里面落后,开源模型是你们用来追赶的工具,你怎么看?
LeCun:首先,你必须意识到,除了谷歌之外,这个行业里的每个人在构建人工智能系统时都在使用一个名为PyTorch的开源软件平台。这个平台主要由 Meta 开发,后来 Meta 把所有权转让给了 Linux 基金会,所以现在它不再属于 Meta 了。OpenAI 的所有人都使用它,所以没有 Meta,GPT 和 Claude 等模型或许发展不到今天的程度。
像 GPT 这样的工具,其中使用的底层技术是在不同地方发明的。OpenAI 在它们不那么保密的时候做出了一些贡献,它们在过去三年左右的时间里逐渐变得保守。谷歌当然也做了一些贡献,但从未真正开放过。他们试图秘密地推动这项技术。
我认为 Meta 是一个相当大的研究机构,我们的研究组织叫做FAIR,过去叫 Facebook Research,现在主要做基础研究。我们有大约 500 人在那里工作。我们正在研究的实际上是下一代人工智能系统,超越了 LLMs,超越了大语言模型,超越了聊天机器人。这就是所谓的大概念模型,这是一个特定的部分。
更安全的 AI 系统可以提前设计
Q:你说过专有 AI 模型集中在少数几家公司手中是一个巨大的危险。开源模型的批评者也担心,不良行为者可能会利用它们来传播错误信息、网络战、生物恐怖主义等。谈谈这两者之间的区别。Meta 在防止这些情况发生的方面有什么作为?
LeCun:这是一个巨大的争论。我们第一次发布 Llama 是相当近期的事情,第一个 Llama 不是开源的。你必须请求许可,你必须证明你是一名研究人员。这是因为法律环境不确定,我们不知道人们会用它做什么。
所以我们进行了几个月的内部讨论,每周两个小时,有 40 个人参与。关于安全性、法律环境等各种问题进行了非常严肃的讨论。然后在某个时候,马克决定开放 Llama 2 的源代码。这是在 2023 年夏天完成的。从那时起,它基本上完全推动了整个行业。
为什么它比这些公司控制的专有模型更安全?因为有更多的人在关注它,所以有更多的人在为各种事情微调它。
有一个问题是,可能有很多人怀着恶意使用它。所以在 Llama 团队中,曾经对所有我们发布的系统进行 Red Team 测试,确保它们至少在发布时基本上是安全的。
我们甚至最初将 Llama 2 给了一群黑客,在 Defcon 上让他们尝试做坏事,比如尝试入侵系统之类的,这被称为白帽。结果是,在过去的将近两年里,我们还没有意识到任何真正糟糕的事情发生在我们分发的任何模型上。
Q:如果你的愿景是 AI 成为所有人类知识的宝库,那么所有的人类知识都必须可用于训练这些模型。而其中大部分要么没有数字化,要么数字化了但没有公开。
LeCun:比如法国国家图书馆的全部内容都数字化了,但不可用于训练。我并不是在谈论版权作品。我的家族来自布列塔尼,法国西部。那里的传统语言已经濒临消失,现在只有大约 3 万人每天说这种语言。
如果你想让未来的 LLM 说布列塔尼语,就需要有足够的训练数据。你将从哪里得到这些数据?你会得到文化非营利组织的帮助,他们收集他们拥有的所有东西。也许政府会帮助他们。但他们可能会说,我想让你们的系统说布列塔尼语,但我不想就这么把我的数据给你。
我认为最好的方法是训练一个 AI 系统,一个分布式的全球 AI 系统仓库,使用各地的数据为全球系统做出贡献。你不需要复制数据。
对于 Linux 来说,实际上它主要是由那些公司员工支持的,这些公司告诉他们实际上要分发他们的贡献。你可以有一个类似的系统,每个人都可以为这个全球模型做出贡献,这是每个人的 AI。
Linux 你是不用付费的,但如果你买了一个运行 Linux 的小部件,比如安卓手机或者车里的触摸屏,你为购买的小部件付费。AI 也是如此,基础模型将会是开源且免费的。
现在,它确实感觉像是少量的力量在操控着一切。这个愿景很美好,但目前并没有很好地实现。不过,在我看来,这是不可避免的。
Q:谈到辩论,你喜欢与其他 AI 教父进行公开辩论,比如你的获奖同行 Jeffrey Hinton 和 Yoshua Bengio。他们都对 AI 的潜在危险发出了警告。
LeCun:我不认为需要对研发进行监管。我在加州法案 SB 1047 上与他们产生了分歧。Hinton 和 Bengio 都支持这个法案,而我则反对。我认为监管研发会给 AI 系统带来灾难性的后果。我说,存在风险是一种幻觉,是一小撮偏执的智库所推动的。
但 Hinton 和 Bengio 并不偏执。Hinton 刚刚因为他的工作获得了诺贝尔奖。另外,加州州长否决了这个法案,但他正在与斯坦福大学的教授合作对其进行修订。
我之所以称其为胡说八道,是因为我认为这些危险已经被夸大了,以至于变得扭曲。一些人说 AI 会在五个月内杀死我们所有人,这显然是错误的。
Q:让我们来谈谈 AGI(通用人工智能),以及我们距离它还有多远。当人们听到这个时,他们会想到《终结者》或《我,机器人》之类的情节。
LeCun:Hinton 和 Bengio 认为 AGI 的时间表可能是五年,而我认为可能需要十年甚至更长。
我不知道会是什么时候,但我个人认为最早可能在五到六年后,但可能更接近十年。因为这比我们想象的要难得多,历史上人们总是低估 AI 的发展难度。
我们现在还没有达到人类水平的智能,甚至不知道如何用 AI 系统做很多事情,比如制造家用机器人或五级自动驾驶汽车。在我们找到新的方法之前,我们甚至还没有走上实现人类水平智能的道路。
一旦我们有了一个蓝图和一些可信的演示,证明我们可能有一条通往人类水平智能的道路,我们就会知道如何使其安全。这就像在 20 世纪 20 年代,有人告诉你几十年后我们将能够以接近音速的速度飞行数百万英里横跨大西洋,你会说:“天哪,你怎么知道这安全?”但涡轮喷气机最终被证明是非常可靠的。
所以,让 AI 安全意味着以安全的方式设计 AI 系统。但在我们设计出来之前,我们无法使其安全。
Q:你似乎不担心 AI 会想要统治人类。你说当前的 AI 比家猫还笨。无论 AI 是否真的想要统治我们,我们是否应该对 AI 和 AI 研发施加一些限制?
LeCun:我认为,对于研发来说,不需要任何限制。但如果你想推出一个家用机器人,你可能会希望硬编码一些规则,在系统构建时嵌入遵循法律,比如当有人在场时,机器人不能拿着刀乱挥。
当前 AI 系统的设计在某种程度上是固有不安全的。你需要训练它们按照你的意愿行事。我提出了一种称为目标驱动的另一种架构,AI 系统基本上只是为了实现一个目标而存在,不能做任何其他事情,只能在这个目标的约束下行动。
Q:现在很多人,包括 Hinton 和 Benjo 在内,都支持一封由 OpenAI 现任和前任员工签名的信,呼吁 AI 公司的员工有权警告技术的严重风险,你没有支持那封信。你是怎么看待模型安全这个问题的呢?
LeCun:我不是这个意思。比如像禁止在公共场所使用大规模人脸识别这样的措施是件好事 。
还有一些措施,比如未经允许就改变某人在视频中的面部,这基本上已经是合法的,我们拥有这些工具并不意味着它们就不违法。可能需要针对这些行为制定定特定的规则,但我对此没有意见。
我对 AI 本质上危险以及需要监管研发的观点有异议,我认为这是适得其反的。在未来,我们将拥有那些我认为对未来民主至关重要的开源平台,那些规则将会适得其反,它们会让开源变得太冒险,以至于任何公司都不敢分发,这样这些私人公司将控制一切。
如果一切都来自美国西海岸的三家公司,我们都说着同样的语言,有着同样的文化,这完全不可接受。
他们想要的是开放的平台,然后可以针对任何文化、价值体系或兴趣中心进行微调,这样全世界的用户都有选择,他们不必使用三个助手,他们可以使用其他的。
我们在印度与几个组织合作,下一个版本的 Llama 能够说印度所有的 22 或 29 种官方语言,这甚至还不足以涵盖印度的所有语言,因为印度有 700 种语言,其中大部分是口语,没有书面语。现在我们有技术可以让聊天机器人实际上处理纯粹的口语,这是令人惊叹的。
我们在越南也做了类似的努力,我们看到全世界的人们都在调整这些模型,并将其用于各种用途。我认为我们需要一种更自觉的全球合作伙伴关系,这些系统从一开始就作为基础模型,能够说世界上所有的语言并理解所有的文化,这样的话,这些努力就会更容易成功,我们可以为各种应用构建专门的系统。