国思软件 - 李飞飞最新访谈：没有空间智能，AGI就不完整

　　闻乐不圆发自凹非寺

　　量子位 | 公众号 QbitAI

　　在我看来，没有空间智能，通用人工智能就不完整。

　　这是“AI 教母”李飞飞在最新访谈中对 AGI 的判断——是的，李飞飞也开始谈论 AGI 了。

　　不过她有自己的表述，从进入人工智能领域开始，她就确定了她终身奋斗的梦想：让智能体能够讲述世界的故事。

　　而这，离不开空间智能。

　　正如她本人所说：

我整个职业生涯都在追逐那些极其困难、近乎疯狂的问题。

　　李飞飞如今聚焦于空间智能领域——这个人工智能最艰难的领域之一。

　　她认为3D 世界建模对于实现 AGI 至关重要，并表示：

理解三维世界、生成三维世界、推理三维世界、在三维世界中做事，是人工智能的基本问题。

　　她的目标是创建一个超越平面像素、跨越语言障碍、能够真正捕捉三维世界结构和空间智能的世界模型。

　　在这次对话中，她从 ImageNet 的起源和影响说起，讲述了 AI 范式转变与关键突破，并提到了 3D 建模面临的挑战以及空间智能的数据缺失问题。

　　量子位翻译并总结了全文，让我们一起来学习李飞飞的最新认知和分享。

　　ImageNet 为现代计算机视觉搭建数据骨架

　　Q：你最早创建的项目之一是 2009 年的 ImageNet，距今已有 16 年了。那篇文章有超过 8 万次引用，真正触及了人工智能的一个关键问题，即数据问题。请告诉我们那个项目是如何产生的——在那会儿，这可是开创性的工作。

　　李飞飞：实际上，我们构思这个（ImageNet）已经是几乎 18 年前的事情了。我曾在普林斯顿大学担任助理教授，当时人工智能和机器学习的世界完全不同，数据非常少，至少在计算机视觉领域，算法并不起作用——那里没有产业。你知道，就公众而言，AI 这个词并不存在。

　　但是我们中间仍有一些人——从 AI 的创始人开始——然后是 John McCarthy、Geoffrey Hinton 等人。我想我们只是做了一个人工智能的梦：我们真的真的想让机器能够思考和行动。而我个人的梦想就是想让机器能够看见，因为看见是智能的基石。

　　视觉智能不仅仅是感知，它的真正意义在于理解世界并在世界中行动。我痴迷于让机器看见的问题，在我当时痴迷地开发机器学习算法时，我们尝试了神经网络，但它没有成功，然后我们转向基础网络来支持向量机。

　　但有一个问题一直困扰着我，那就是泛化的问题：如果你在机器学习领域工作，你必须认识到泛化是机器学习的核心数学基础或目标。为了泛化，这些算法需要数据。但当时还没有人在计算机视觉领域有数据，而我是第一批开始接触数据的研究生，因为我是最早看到互联网、物联网大发展的那一代研究生。

　　时间快进到 21 世纪，大约在 2007 年前后，我和我的学生决定，我们必须进行一次大胆的赌注：我们必须赌机器学习需要一次范式转变，而这个转变必须由数据驱动的方法引领，但当时根本没有数据。

　　所以我们想，好吧，去互联网上下载十亿张图片——那是当时我们能获取到的最大数量——然后创建整个世界的视觉分类体系，并用这个来训练和评估机器学习算法。这就是 ImageNet 被构想出来并诞生的原因。

　　自然语言与视觉信号的融合，让智能体能够讲述世界的故事

　　Q：这个过程持续了一段时间，才发展出一些有前景的算法，直到 2012 年 AlexNet 出现，这才构成了通往人工智能的第二个关键部分——获得计算能力，并投入足够的资源到算法中。请告诉我们，您是什么时候开始意识到这一点的？就是当你发现“用数据播种”的方法开始奏效，整个 AI 社区在此基础上取得了更多突破性进展的那个时刻。

　　李飞飞：在 2009 年，我们发表了一个非常小的 CVPR 海报，然后在 2009 年到 2012 年之间，那三年我们真的相信数据会驱动人工智能，但我们几乎没有关于它是否有效的信号。所以我们做了一些事情，其中一件就是开源。从一开始我们就相信，必须将这个项目开源给整个研究界，让所有人都能参与进来。

　　另一件事情是，我们发起了一个挑战赛，希望全世界最聪明、最优秀的学生和研究人员都能来解决这个问题。这就是我们所说的 ImageNet 挑战赛。我们每年都会发布一个测试数据集，然后公开邀请所有人参与。最初几年其实是在建立基准线——当时的识别错误率徘徊在 30% 左右，虽然不算完全随机猜测的水平，但确实不尽如人意。

　　但是，在第三年也就是 2012 年（我在一本我出版的书中写到了这一点），我依然记得那是在夏天快要结束的时候，我们正在处理 ImageNet 挑战赛的所有结果，并在我们的服务器上运行，然后有一天深夜，我收到了我研究生的消息：他说我们得到了一个特别特别突出的结果，我应该看看。于是我们仔细研究了它，那是卷积神经网络（convolutional neuronet network）之类的。

　　当时 Geoffrey Hinton 的团队还不叫 Alex 这个名字，他们当时命名为“SuperVision”，这是对“超级视觉”和“监督学习”的巧妙双关，所以“SuperVision”。

　　让我们看看他们做了什么——这是一个老算法，卷积神经网络在 20 世纪 80 年代问世，而他们在算法上做出了一些调整。最初看到这样的飞跃变化，对我们来说还是挺令人惊讶的，嗯，你们知道，我们在那一年的意大利佛罗伦萨 ICCV 挑战研讨会上展示了这个，Alex Krizhevsky 和很多研究者都来了。

　　如今这一刻已经被载入史册，被称为“ImageNet 挑战赛的 AlexNet 时刻”——这不仅仅是一个卷积神经网络的应用，这是 Alex 和他的团队第一次将两个 GPU 并联用于深度学习计算的壮举。所以这实际上是数据、GPU 和神经网络第一次结合的时刻。

　　Q：现在，顺着计算机视觉智能发展的趋势，ImageNet 真正成为解决物体识别概念的关键，然后紧接着，人工智能也达到了能够解析视觉场景的程度。因为你和你的学生，比如 Andrej Kaparthy，做了很多重要工作，让 AI 首次实现了场景描述的能力。请告诉我们物体到场景是如何转变的。

　　李飞飞：ImageNet 解决的核心问题是：当系统接收一张图像时，能够准确识别其中的物体，比如“这里有一只猫”“那是一把椅子”等等。这是视觉识别中的一个基本问题。

　　从我作为研究生进入人工智能领域开始，我就有一个梦想，我认为这是一个长达一百年的梦想，即让智能体能够讲述世界的故事：当你在这个房间睁开眼睛时，你看见的不仅仅是人、椅子、椅子和椅子，你实际上可以看到一整个会议室，有屏幕、有舞台、有人、有观众，还有摄像机……你实际上能描述你看到的整个场景。这是人类视觉智能的基础能力，对我们的日常生活来说至关重要。

　　所以我真的认为这个问题会困扰我的一生，字面意义上的，当我作为研究生毕业时，我告诉自己，如果我在临终前能够创造一个能够讲述场景故事的算法，我就成功了。

　　随着 Alex 时刻的到来，深度学习迎来了爆发式发展。当 Andrej 和后来的 Justin Johnson 进入我的实验室时，我们开始观察到自然语言与视觉信号相互融合的迹象。随后，我和 Andrej 提出了为图像添加字幕或讲故事的问题。长话短说，2015 年左右，Andrej 和我发表了一系列论文，同期也有几篇类似研究，关于制造一台可以为图像添加字幕的计算机。那时我的感受是，天啊，我该怎么度过我的余生？那是我一生的目标，那对我们两个人来说都是难以置信的时刻。

　　去年我做了一个 TED 演讲，我实际上使用了 Andrej 几年前在完成图像字幕工作时发的推文，基本上就是他的论文。我还和他开了个玩笑，我说：“嘿 Andrej，我们为什么不反过来做呢？取一个句子然后生成一张图片。”当然他知道我在开玩笑，他说：“哈哈，我要走了~这个世界还没有准备好。”快进到今天，我们都知道生成式 AI 了，现在我们可以用一句话生成美丽的图片。所以这个故事的寓意是，AI 已经取得了不可思议的增长。

　　我个人认为我是世界上最幸运的人，因为我的整个职业生涯始于 AI 寒冬结束的初期，也就是 AI 开始腾飞的起点，而我自己的工作、我自己的职业生涯有很大一部分都参与了这一变革，或者为这一变革提供了助力。所以我感到非常幸运和自豪。

　　没有空间智能，通用智能就不完整

　　Q：我认为最疯狂的事情是，即使你实现了你一生的梦想——描述场景，甚至用扩散模型生成它们——你实际上还在梦想更大的事情，因为整个计算机视觉的发展历程从物体变成了场景，而现在这个概念是整个世界，而你决定从学术界成为教授，到现在成为 World Labs 的创始人和 CEO。请告诉我们，有什么是比看见物体更难的事情？

　　李飞飞：要总结过去五六年的经历真的很难，我们正生活在科技进步的这样一个文明时刻，对吧？而作为计算机视觉科学家，我们见证了计算机视觉从图像识别到图像描述再到使用扩散技术进行图像生成的惊人发展，这一切都在以一种非常令人兴奋的方式发生。

　　我们还有另一个同样令人兴奋的领域，那就是语言，也就是 LLMs，2022 年 11 月，ChatGPT 打开了真正能够通过图灵测试的工作生成模型的大门。对我来说，这个进展非常鼓舞人心，即使是像我这样年纪的人，也会大胆地思考未来会怎样。

　　作为一名计算机视觉科学家，我有一个习惯——我的很多灵感其实都来自进化论和脑科学——在我的职业生涯中，我常常在寻找下一个要解决的目标问题，我问我自己，进化论做了什么，脑发育做了什么。有一点非常值得注意或者说值得欣赏的事情是，非常宽泛地来说，人类语言的进化发展大约花了 3 亿年到 5 亿年，还不到十亿年，而且基本上人类是唯一拥有复杂语言的动物。我们可以争论动物是否具有语言，但就语言作为交流、推理、抽象的工具而言，真正拥有语言的是人类，这花费的时间还不到 5 亿年。

　　但想想视觉，想想理解三维世界的能力，弄清楚在这个三维世界中该做什么、导航三维世界、与三维世界互动、理解三维世界、交流三维世界……这个进化持续了 5.4 亿年。5.4 亿年前，首批三叶虫在水下进化出了视觉感知能力，而正是视觉的出现引爆了这场进化的军备竞赛。在视觉诞生前的五亿年间，地球上的生物都极其简单。但在随后的 5 亿年，也就是在这 5.4 亿年里——正因生物获得了观察世界、理解世界的能力——进化竞赛正式开启，动物智能开始相互竞争。

　　所以对我来说，解决空间智能的问题：如何理解三维世界、生成三维世界、推理三维世界、在三维世界中做事，是人工智能的基本问题。在我看来，没有空间智能，通用人工智能就不完整。我想要解决这个问题：这涉及到创造性的世界模型，它超越了平面像素、超越了语言，是真正捕捉三维世界的结构和空间智能的世界模型。

　　我一生中最幸运的事，就是无论我年纪多大，总能和最优秀的年轻人共事。所以，你知道的，我和三位了不起的年轻但世界级的技术专家——Justin Johnson、Ben Mildenhall 和 Christoph Lassner 共同创立了一家科技公司，我们即将尝试解决在我看来目前 AI 领域中最困难的问题。

　　Q：那真是令人难以置信的天赋，我是说，Chris，他是 Pulsar 的创造者，而 Pulsar 是 Gosh 和 Splats 的雏形，可以进行大量可区分的渲染；你的前学生 Justin Johnson 拥有超强的系统工程思维，实现了实时神经风格迁移；然后是 Ben，他是 Nerf 的作者。所以这是一支超级精锐团队，而你需要这样的一支超级精锐团队。我们之前稍微聊过，实际上，视觉任务在某些方面比 LLM 更难——也许这话说出来有些争议，但毕竟 LLMs 基本上是一维的，而你谈论的是理解三维世界的结构。为什么这会如此困难并且落后于语言的研究呢？

　　李飞飞：我很感谢你能体会到我们的问题有多困难，哈哈。语言在本质上是一维的对吧？那些音节按照顺序排列，这就是为什么序列到序列、序列建模如此经典。还有一些人们没有意识到的语言方面的东西：语言纯粹是生成性的。自然界中不存在语言，你无法触碰或者看见语言，语言源自每个人的大脑，而这是一种纯粹的生成信号——当然，你把它写在纸上，它就存在了。

　　但是语言的生成、构建和效用是非常具有创造性的，现实世界远比这复杂得多。首先，现实世界是 3D 的。如果加上时间，那就是 4D，但就让我们局限于空间吧，认为世界本质上是 3D 的，这本身就是一个组合难度更大的问题；

　　其次，视觉对世界的感知和接收是一种投射，无论是你的眼睛、视网膜还是相机，它总是将 3D 转换为 2D，你得明白这有多难，从数学角度来说这是错误的，这就是为什么人类和动物有很多个传感器；

　　第三，世界并非完全是生成性的，我们可以生成虚拟的 3D 世界，它仍然必须遵守物理规律等等，但外面也有一个真实的世界。现在虚拟世界突然以一种非常流畅的方式在生成和重建之间切换，而且用户行为、实用性、使用场景都大不相同——如果你把时间拨到这一代，我们就可以谈谈游戏、元宇宙之类的话题，如果你一路拨入现实世界，你就会发现我们正在谈论具身智能等等。但这一切都处于世界建模和空间智能的连续体上。

　　一个显而易见却常被回避的问题是：互联网上充斥着大量的语言数据，而空间智能的数据在哪里呢？当然，这些信息都存在于人类大脑中，但它不像语言那样容易获取，这些都是它如此困难的原因。但坦白说，这让我兴奋，因为如果它很容易，那别人早就解决了。我的整个职业生涯都在追逐那些极其困难、近乎疯狂的问题，我认为这就是那个疯狂的问题。

　　Q：即使从最基本的原理来思考这个问题，人类大脑视觉皮层中处理数据的神经元数量远多于处理语言的神经元数量，人脑的这种架构与 LLMs 有很大差别，你也逐渐发现了这一点，对吧？

　　李飞飞：这实际上是个非常好的问题，现在仍然存在很多不同的观点，我们在大语言模型中看到的很多内容实际上是在写作，通过写作技能将故事扩展到完美的结局，你几乎可以一路通过暴力手段进行自监督。

　　而建设性世界模型可能会更复杂一些，世界更加结构化，可能需要我们用来引导它的信号，你可以把它看成一种先验形式，或者是数据监督。

　　我认为以上这些是我们必须解决的一些开放性的问题，而且，我们甚至都不能完全理解人类的所有感知，我们还没有解决 3D 在人类视觉中如何运作这个问题，虽然从机械原理上，我们用眼睛对物体进行三维测量，但在此之后，数学模型又在哪里呢？

　　人类并不像 3D 动物那么伟大，所以还有很多问题有待解答，我只是在指望一件事：我期待我们之中最聪明的人来解决这个问题。

　　Q：那是否可以认为你们的 World Labs 正在构建的是全新的基础模型，它输出的是 3D 世界。你们设想的应用有哪些？因为你已经列出了从感知到生成的所有内容，但生成模型和判别模型之间始终存在着矛盾，那么（输出的）这些 3D 世界有什么作用呢？

　　李飞飞：就空间智能而言，就像语言模型一样，从创作的角度来看这个模型用例非常广泛，比如，可以当设计师、建筑师、工业设计师，以及艺术家，还有从创作到游戏开发者，再到机器人、机器人学习等方面，空间智能模型或者说是世界模型的实用性非常大。

　　实际上，我对元宇宙非常感兴趣，我知道很多人仍然觉得它不管用，虽然我也知道它仍然无法运作，但我认为硬件和软件的融合即将到来，这也是未来的另一个绝佳用例。

　　Q：我个人对于你正在解决元宇宙的问题感到非常兴奋，因为我也在之前的公司尝试过（这个问题）。

　　李飞飞：我认为硬件是目前元宇宙障碍的一部分，在元宇宙中需要内容生成，而内容生成需要世界模型。

　　思想上要有无畏精神

　　Q：对于一些观众来说，他们可能会觉得你从学术界到现在成为创始人兼 CEO 的转变很突然，但实际上你一生都有着非凡的经历，这不是你第一次从 0 到 1 了，你曾移民到美国时，青少年时期不会说英语的情况下甚至开了好几年洗衣店，跟我们讲讲这些经历是如何塑造现在的你的吧。

　　李飞飞：我当时 19 岁，我需要去普林斯顿大学学物理，所以我没有办法养家糊口，于是我开了一家还不错的干洗店，用硅谷的话说，我开始筹集资金。

　　我曾是创始人、CEO，也曾做过收银员等。但不管怎样，我看着你们感到无比兴奋，因为你们的年龄差不多只有我的一半，甚至，可能只有我年龄的 30%，而你们又如此优秀，你们放手去做想做的事情就好。

　　在我刚开始当教授的时候，我也不顾很多人的反对，去了那些我是首个计算机视觉教授的学院——虽然我知道，作为一名年轻教授，我本应该去哪些有学术氛围和资深导师的地方。当然，我也很希望那些地方有资深导师，如果没有的话，我就开辟自己的道路，闯出自己的一片天，我并不害怕。

　　后来，我去了谷歌，了解了很多谷歌企业方面的知识，然后在斯坦福大学创办了一家初创公司。大约在 2018 年，AI 成了一个全人类的问题，人类不断推动着科技的进步，但是我们不能失去人性，我很在意 AI 发展进程中的一些积极导向，我想让 AI 以人类为中心来造福人类。

　　于是我回到斯坦福创立了以人为本 AI 研究院（HAI），并且运营了 5 年，可能有些人不理解，但我对此感到非常自豪。某种程度上，我觉得自己就是热爱当企业家。

　　我喜欢那种一切归零的感觉，就像站在零点一样，忘掉过去所做的一切，不在意别人对你的看法，只管埋头苦干，努力建设，那是我的舒适区。

　　Q：你还有一个非常了不起的地方，除了你所做的所有令人赞叹的事情之外，你还指导了很多传奇的研究人员，比如 Andrej Kaparthy、英伟达的 Jim Fan、与你共同完成 ImageNet 的邓嘉，他们后来都取得了非凡的职业生涯。他们学生时代真正突出的地方是什么？

　　李飞飞：首先，我是个幸运的人。我认为学生对我而言意义更大，他们真的让我成为了一个更好的人、更好的老师、更好的研究者。就像你说的，能与这么多传奇学生共事，真的是我一生的荣幸。

　　他们非常不同，他们中的一些人是纯粹的科学家，试图埋头解决一个科学问题；有些人是行业领袖；还有一些人，是最伟大的 AI 知识传播者。但我认为有一件事能将它们统一起来。

　　我鼓励他们每一个人都思考一下这个问题，这也是我为那些正在招聘的创始人提一些建议，包括我的招聘标准：我寻找的是思想上的无畏精神。

　　我认为无论你来自哪里，无论我们试图解决什么问题，都无关紧要。那种勇于接受困难之事、全力以赴并想尽办法去解决问题的勇气和无畏精神，是成功人士的核心特质。我从他们身上学到了这一点，而且我真的在寻找具备这种特质的年轻人——作为 World Labs 的 CEO，在招聘时，我会寻找具备这种特质的人。

　　Q：所以你们也在为 World Labs 大量招聘。

　　李飞飞：是的，我们正在招聘工程人才、产品人才、3D 人才和生成模型人才。所以，如果你觉得自己无所畏惧，并且热衷于解决空间智能问题，那就跟我聊聊，或者访问我们的网站。

　　通过梯度下降法找到生活最优解

　　观众1：嗨，飞飞，我是你的超级粉丝。我的问题是，二十多年前，您从事过视觉识别方面的工作，如果我想现在开始攻读博士学位，我应该选择什么方向，才能成为像你一样的传奇人物呢？

　　李飞飞：虽然我可以说，做任何让你兴奋的事，但我更想给你一个深思熟虑的答案：首先，我认为 AI 研究已经发生了变化，因为学术界不再拥有大部分的 AI 资源，这和我那个时代大不一样了。芯片、算力和数据在学术界的资源配置方面确实非常匮乏。

　　作为一名博士生，我建议你去寻找那些不用通过更好的计算、更好的数据就能更好解决的问题的团队，在学术界，我们仍然可以发现一些非常根本性的问题：无论你有多少芯片都能取得很大的进展。

　　其次，跨学科 AI 是学术界一个非常令人兴奋的领域，尤其是在科学发现方面。有太多学科可以与 AI 交叉，我认为这是理论方面一个大有可为的领域。

　　很有意思的是，AI 能力已经 100% 超越了理论：我们不知道如何做、我们缺乏可解释性、我们不知道如何找出因果关系、我们有太多不理解的事情……所以人们可以继续推进。

　　而且这个清单可以一直列下去：在计算机视觉领域，仍然存在一些我们尚未解决的表征问题。另外，小数据也是另一个非常有趣的领域，这些就是可能性。

　　观众2：再次祝贺你获得耶鲁大学的荣誉博士学位，一个月前，我有幸在那里见证了那一刻。我的问题是：在你看来，AGI 更有可能统一模型或作为多智能体系统，以统一、单一的形式出现吗？

　　李飞飞：你提出这个问题的方式本身就已经是两种定义了。其中一种定义更具理论性，即如果存在一个智商测试，通过该测试就可定义为 AGI；另一个定义则更具功能性，如果它是基于智能体的，它是否具备功能性，能执行哪些任务？

　　老实说，我也对这个 AGI 的定义感到困惑。1956 年齐聚达特茅斯的 AI 先驱们，像 John McCarthy 和 Marvin Minsky 这样的人，他们想要解决机器思考的问题。而这是图灵早在 10 年前就提出的问题，在那个陈述中，它不是狭义的 AI，而是一种智能的表述。

　　所以我不太清楚如何区分关于 AI 和这个新词 AGI 的定义。对我来说，它们是一回事。但我明白，如今的行业喜欢把 AGI 称为超越 AI 的东西，我对此感到困惑，因为我不知道 AGI 与 AI 究竟有何不同。

　　如果我们说如今 AGI 的系统比 80、70、90 年代或其他时期的狭义 AI 系统表现更好，我认为这只是该领域的发展进程。但从根本上说，我认为 AI 的规模即智能的规模，我们是要创造出能够像人类一样智能，甚至比人类更加智能地思考和做事的机器。

　　我不知道如何定义 AGI，不定义它我就不知道它是否是单一的。你把大脑看作一个整体，但它确实有不同的功能。甚至还有专门的语言区域，有视觉皮层，也有运动皮层。所以我真不知道该怎么回答那个问题。

　　观众3：看到一位女性在这个领域发挥主导作用真的很鼓舞人心。我想问，在 AI 迅速崛起的当下，你作为一名研究者、教育者和企业家，认为什么样的人应该攻读研究生学位？

　　李飞飞：这是个很棒的问题。这是一个连家长都会问我的问题。我认为研究生阶段是你充满强烈好奇心的 4 到 5 年。你被好奇心引领。那种好奇心非常强烈，以至于没有比这个时期更好的时期来满足。

　　读研究生与创业不同，因为创业不能仅仅靠好奇心来引领，这样你的投资者会对你发火的。一家有着明确商业目标的初创公司，其中一部分原因是好奇心，但又不只是好奇心。

　　而对于基层人员来说，解决问题或提出正确问题的好奇心很重要，我认为那些带着强烈好奇心投身其中的人会享受这四五年研究生时光，即便外界正以光速发展，你依然会感到快乐，因为你在那里追寻着那份好奇心。

　　观众4：你提到开源是 ImageNet 发展的重要组成部分，而现在，随着大语言模型的最新发布，我们看到各组织在开源方面采取了不同的做法，有些组织完全采用闭源模式，有些组织则完全公开其整个研究栈，还有些组织处于中间状态，开放权重或采用限制性许可等类似做法。所以我想问，你如何看待这些不同的开源方法，以及你认为作为一家 AI 公司，正确的开源方式是什么？

　　李飞飞：我并不拘泥于你必须开源或必须闭源这种教条。这取决于公司的业务战略。

　　例如，Facebook、Meta 想要开源的原因很明显，他们目前的商业模式并不是通过销售模型来盈利。他们正在利用它来发展生态系统，以便人们来到他们的平台。所以开源很有意义。

　　而其他公司通过开源或者闭源赚钱。所以我对这个问题挺开放的。我认为开源应该受到保护，如果公共部门（如学术界）和私营部门都有开源，那对创业生态系统非常重要。我认为应该受到技术保护。

　　观众4：我有一个关于数据的问题：既然你现在正在研究世界模型，你指出了机器学习向以 ImageNet 为代表的数据驱动方法的转变，并且你提到互联网上没有这种空间数据，它只存在于我们的头脑中，那么你是如何解决这个问题的呢？你是从现实世界收集这些数据吗？还是合成数据？还是你相信那些古老的先验知识呢？谢谢。

　　李飞飞：你应该加入 World Labs，我会告诉你的。

　　作为一家公司，我没办法透露太多，但我承认我们正在采取混合方式，拥有大量数据固然重要，但拥有大量高质量数据同样重要，说到底，如果不注意数据质量，仍然会出现“输入垃圾，输出垃圾”的情况。

　　观众5：在你的书《我看见的世界》中，你谈到了作为移民女孩和女性在 STEM 所面临的挑战。我很好奇，你是否有过在工作场所感觉自己是少数群体的时刻，如果有，你是如何克服这种情况或说服他人的？

　　李飞飞：感谢你提出这个问题。我想非常谨慎或深思熟虑地回答你，因为我们都来自不同的背景，每个人的感受都非常独特。其实，我们是什么人都无关紧要，我们所有人都有过感觉自己是少数人群的时刻。

　　有时这取决于我是谁，有时这基于我的想法，有时候就只是在于我穿的衬衫颜色之类的，但这正是我想要鼓励大家的地方，我从小来到这个地方，我已经检验了这件事情的本质，那就是作为一名移民女性，我几乎培养出了一种不过度关注此事的能力——和你们每个人一样，我来这里是为了学习、做事或创造。

　　在访谈的最后，李飞飞给所有年轻人送上了美好的祝愿：

你们即将踏上一段征程，或者正处于征程之中，你们会有脆弱的时刻，或者遇到奇怪的事情，在创业过程中，我每天都有这样的感受，有时候我会想，“天哪，我不知道自己在做什么”。但你们只管专注去做，通过梯度下降法找到最优解。

　　访谈链接： https://www.youtube.com/watch?v=_PioN-CpOP0

　　— 完 —

李飞飞最新访谈：没有空间智能，AGI就不完整

我们的产品

相关链接

关于我们

联系我们