国思软件 - 基本物理任务，全球顶级AI均失败！普通零件加工，o3不如老师傅

　　新智元报道

　　编辑：KingHZ

　　在基本物理任务上，前沿 AI 模型仍会失败！ML 研究院的测试案例显示白领将被 Ai 替代，而制造业等蓝领工作不受影响。未来已来，只是分布得不均匀。

　　基于 AI 研究、机器人以及实际制造等过往经验，Adam Karvonen 在零件制造任务上，测评了顶尖模型的表现。

　　包括 OpenAI o3、Gemini 2.5 Pro 等顶尖 LLM，全部失败，没有一个让他满意！

即便 o3 的智商高达 136，超越 GeminI 2.5 Pro 和 90% 的人类，但在这次测试中，不如 Gemini 2.5 Pro，更不要提经验丰富的工人老师傅了。

　　基于此，他认为，在未来一段时间内，AI 将自动化大量白领工作，而蓝领工作不受影响。

　　也就是说，自动化在全行业里并不会均匀发生。

　　尽管还不知道这种不均衡会持续多久，但他认为局部自动化几乎已成定局。

　　Adam Karvonen

　　这与 Anthropic 的首席执行官 Dario Amodei 的预测截然不同。

　　Dario 曾公开表示：几乎所有工作会同时被自动化，从而把每个人都「放在同一条船上」

　　但 Adam Karvonen 做过机械师，还从事过机器人相关工作。

　　此外，他从事过软件开发，现在是 MATS 学者项目的机器学习研究人员。

　　可以说，他是研究 AI 对蓝领工人影响的上佳人选。

　　零件制造：物理+视觉双重挑战

　　评估很简单：制定一个详细的计划，使用 3 轴 CNC 铣床和 2 轴 CNC 车床来加工一个零件，如下图所示。

　　测试中要加工的零件

　　尽管这并不简单，但在典型的原型制造或工作车间环境中，大多数技师会将执行这一任务视为常规工作，涉及标准的车削和铣削技术，但需要多个加工步骤。

　　CNC 铣床和车床零件加工示意图

　　尽管这个零件很简单，即便是像 o1-Pro 或 Gemini 2.5 Pro 这样的前沿模型也经常犯下重大错误。

　　这些错误可以分为两类：视觉能力和物理推理能力。

　　视觉错误

　　大多数模型的视觉能力非常差：在过去的两年里，在视觉能力上，Anthropic 和 OpenAI 的模型没有任何实质性的进步。

　　它们总是错过一些显而易见的特征。

　　哪怕只是这个零件做出合理的描述，Claude 3.5、Claude 3.7、GPT-4.5、GPT-4o 或 o1-Pro 也做不到。

　　如果没有视觉能力，创建制造计划几乎是完全不可能的。

　　有趣的是，在像 MMMU 之类的视觉推理基准测试中，许多模型得分高于或接近人类专家的水平。

　　MMMU 基准的测试科目和示例

　　然而，容易衡量的东西，往往与现实世界的实用性没有直接关联。

　　当看到 Gemini 2.5 在视觉能力上有了重大进展时，他感到非常惊讶。

　　在大约尝试四次，它能够识别出大多数主要特征，没有额外的虚构内容。

　　它能捕捉到的一些细节确实令人印象深刻。

　　然而，这种视觉改进主要揭示了更深层次的未解决问题。

　　Gemini 2.5 Pro 能够识别大多数主要特征，而没有重大的虚构错误。

　　然而，它仍然会做出一致的、更微妙的视觉错误：漏过细节、偶尔的虚构/误解、特征识别不一致。

　　对比一下 Adam Karvonen 和 Gemini 2.5 Pro 对加工零件的描述

　　Adam Karvonen 的描述

　　Gemini 2.5 Pro 的描述

　　这是一根细长的黄铜圆柱体，两端带有不同直径的台阶和螺纹。该部件长 2 英寸，直径为 0.187 英寸，因此长度与直径的比例超过了 10:1。

　　材料：黄铜（可能是 C360 自由切削黄铜，便于加工）

　　形状：主要为圆柱形，具有多个不同直径的部分，两端带有螺纹，中央部分有铣削平面，平面上有两个螺纹孔，且有一个横向穿过螺纹部分的孔。

　　大致尺寸：长度约为 2 英寸，最大直径约为3/16 英寸（0.1875 英寸）。螺纹看起来比较细（可能是#6-32 或 M4 规格）。螺纹孔较小（可能是#2-56 或 M2.5 规格）。横向孔较小（约1/16 英寸或 1.5mm）。确切的尺寸需要从图纸中获取，但我们可以根据这些估算的尺寸进行分析。

　　物理推理错误

　　以前，很难将视觉误解与更深层次的物理推理问题区分开来。

　　现在，即便从准确的视觉解释出发，Gemini 2.5 仍然会产生充满实际错误的加工计划。

　　典型错误包括：忽视刚性和振动；物理上不可能的工件夹持。

　　忽视刚性和振动。

　　这个零件相对于其直径来说长而细。

　　如果用标准技术来加工它，这很可能导致零件在加工时发生变形，或在切削工具上快速振动（称为「振刀」现象）。

　　刚入行的技师都能立刻意识到，刚性对于像这样的长细零件至关重要。

　　当专门询问振刀问题时，Gemini 错误地使用尾座等教科书解决方案，反而加剧了像在这根长细黄铜零件中弯曲问题。

　　尾座是机械加工中常用的装置

　　物理上不可能的工件夹持。

　　Gemini 通常提出一些无法实现的工件夹持和操作顺序。

　　最常见的建议是将零件夹在夹具中（特别是卡盘块），加工一些特征，然后旋转夹具以加工其他特征。

　　然而，这在物理上是不可能的，因为夹具会挡住这些新特征。

　　CNC 工件夹持方法

　　Adam Karvonen 的总体印象是：「就像是在复述教科书知识，但根本不懂他们在说什么」。

　　这些模型非常乐于提供教科书上的知识，但在重要的实际细节上，完全错误。

　　这与他收到的制造业及建筑行业的反馈一致：目前的 LLM，在他们工作的核心、动手操作部分，几乎完全无用。

　　这项评估仅仅是皮毛

　　生成文本计划，只是工作中最简单的部分。

　　实际的加工，涉及管理每个高层步骤背后的许多细节。

　　仅仅选择一个切削工具就需要考虑刀尖半径、刀柄碰撞间隙、刀具刚性、涂层、切削速度/进给速率等多个因素。

　　而且往往存在取舍与权衡，例如间隙与刚性之间的平衡。

　　许多因素，本质上是空间问题，而这些问题利用文本是无法完全评估的。

　　如果模型在这些可描述的方面表现如此糟糕，那么它们对基础物理现实的理解可能会更糟。

　　事实上，真正的关键是克服众多难题，每个难题都比前一个更加困难：

准确的视觉感知：基础步骤是从输入图像中，正确识别所有几何特征和它们的关系。这几乎不需要空间推理能力，但大多数模型在这方面表现依然非常差。
基本的物理合理性：不仅仅是看清零件，模型还必须提出物理上可行的操作和设置。这涉及基本的空间推理，以确保例如工具访问不会被夹具阻挡。
融入物理知识：成功的加工需要理解现实世界的物理和潜在知识。这通常要实操获得经验，但现有的数据集无法做到这一点。
工艺优化：在步骤1-3 中处理细节是正确加工零件的前提。正如马斯克所说，高效制造比制造原型要困难 10-100 倍。这才是工作中真正具有挑战性的部分。

　　步骤 2 到 4 可能难以通过模拟生成的合成数据来解决。

　　与 Adam Karvonen 交流过的技师，几乎都认为：工程师理解教科书公式和 CAD，但不理解现实制造中的约束。

　　而模拟环境，似乎很可能会创造出具有相同缺陷的AI。

　　为什么 LLM 表现不佳？

　　缺乏数据，是 LLM 在物理任务中表现不佳的最明显的原因。

　　像加工这样的问题，依赖于大量的隐性知识和通过经验学到的无数微妙细节。这些细节通常并不会被记录下来。

　　这并不是因为专家故意隐瞒秘密——而是因为记录这种细致入微的现实世界知识既不现实也不高效。

　　软件工程师，很少记录每一行代码背后的所有推理。

　　类似地，加工技师也不会记录每次设置零件时的所有考虑因素。

　　导师手把手教学，比通过教科书学习或死记硬背程序更加快捷高效。

　　这与软件工程或法律等领域有着显著的区别。

　　尽管软件工程师或律师可能不会明确记录每个推理步骤，但他们会生成像代码、版本控制历史和合同这样的制品，这些都包含了非常丰富详细的信息。

　　而在物理任务中，虽然同样存在相应的详细信息，但这些信息嵌入在 3D 世界，通常非常难以有效数字化。

　　因此，LLM 在回顾某些教科书知识时表现出色，但这远远不够。

　　改进物理任务可能很困难

　　从经验来看，顶尖模型目前在这些任务上表现不佳。

　　这只是暂时的障碍，很快就能克服吗？

　　这很难确定，但 Adam Karvonen 有一些推测性的理由来解释为什么未来的进展可能会很困难，也可能比预期的更容易。

　　一个显然的解释是，LLM 在物理任务上表现不佳，是因为目前没人投入足够的精力。

　　然而，改进对物理世界的理解可能非常难。

　　提升编码能力的路径依赖于大量的训练数据和清晰的奖励信号，支持强化学习和合成数据的使用。

　　然而，这种方法在物理任务中并不适用。

　　为什么改进可能很困难

　　缺乏可验证的奖励：为复杂物理任务定义奖励信号非常困难。

　　零件的缺陷可能表现为几年后稍微增加的故障率，或者是多年后错误应用防水涂层造成的腐烂。

　　注塑产品中的裂缝

　　反馈回路可能很长，而且结果很难通过自动化方式衡量。

　　缓慢、昂贵且危险的试错法：通过强化学习或生成合成数据的学习，可能非常困难。

　　一次错误很容易导致数十万甚至更多的损失。

　　与运行有漏洞的代码不同，使用重型机械或从事建筑施工时的错误可能带来严重后果。

　　制造业获得经验通常需要使用昂贵且有限的资源，而不仅仅是几个 GPU 小时。

　　为什么改进可能比预期容易

　　自动化AI研究员：AI 在编码和 AI 研究方面正在取得重大进展。

　　人类可能很快就会迎来 AI 研究员。

　　也许这种自动化的 AI 研究员，能够通过创建更高效的算法或大量的模拟数据，轻松解决这些挑战。

　　合成数据：有些明显的方法还没有得到充分探索。

　　例如，模拟可以被用来创建大量数据，尽管模拟与现实之间会存在差距。

　　以特定的制造工艺（如 CNC 加工）为例，计算机辅助制造（CAM）软件可以准确地模拟大多数操作。

　　然而，制造过程中有很多多样化的工艺，许多工艺没有很好的模拟解决方案。

　　总体来说，虽然改进物理任务处理能力存在诸多挑战，但随着技术的发展，自动化 AI 研究员的出现以及合成数据的广泛使用，未来可能会取得意想不到的进展。

　　自动化不均衡的影响

　　如果这一趋势持续下去，人类将要面临新阶段，其中远程工作会经历显著的自动化，而熟练的体力工作则在很大程度上不受 AI 影响。

　　这一「自动化差距窗口」可能持续一段未知的时间，并带来潜在的影响：

　　1. 加剧紧张局势

　　自动化与非自动化行业之间可能很容易出现重大阶级冲突，尤其是因为这两个群体之间还存在其他潜在的差异。

　　白领工人更有可能面临职位替代，而他们通常收入更高，并且拥有更为自由的政治信仰。

　　这些差异可能加剧紧张局势，并导致自动化行业群体的重大经济痛苦。

　　2. 公众对AI的反对

　　这可能导致公众反对进一步的 AI 研究。

　　像蓝领工人这样的群体，现在已经有了自动化可以迅速发生的证据，他们可能不希望被 AI 取代。这可能会阻碍进一步的 AI 发展展，并延长不平衡的存在。

　　3. 体力劳动瓶颈

　　如果大多数知识工作被自动化，像制造业这样的体力劳动能力可能会成为技术进步或国防的瓶颈。

　　像中国这样的国家，凭借其更强大的工业基础，可能会获得显著的战略优势。

　　但这存在许多不确定性。

　　参考资料：

　　https://adamkarvonen.github.io/machine_learning/2025/04/13/llm-manufacturing-eval.html

基本物理任务，全球顶级AI均失败！普通零件加工，o3不如老师傅

我们的产品

相关链接

关于我们

联系我们