国思软件 - o1规划能力首测！已超越语言模型范畴，preview终于赢mini一回

　　克小西发自凹非寺

　　量子位公众号 QbitAI

　　o1-preview 终于赢过了 mini 一次！

　　亚利桑那州立大学的最新研究表明，o1-preview 在规划任务上，表现显著优于 o1-mini。

　　相比于传统模型的优势更是碾压级别，在超难任务上的准确率比 Llama3.1-405B 高了 11 倍。

　　要知道之前，OpenAI 自己人也发了一张图，显示 preview 论性能比不过满血版，论经济性又不如 mini，处于一个十分尴尬的地位。

　　作者在推文中表示，尽管存在可保证性和成本问题，但仅针对 CoT 而言，o1 已经超越了大模型的“近似检索”性质，提升到了“近似推理”层次。

　　并且在论文中，o1 全程被称作 LRM（Large Reasoning Model，大型推理模型），而非一般大型语言模型的 LLM。

　　o1 团队的核心成员 Noam Brown 也转发了这项研究，顺便给 o1-preview 打了个 call。

　　还有网友翻出了隔壁 Meta 的 LeCun 半个多月前的推文，当时 LeCun 说大模型没有规划能力，结果现在 OpenAI 就带着 o1 来踢馆了。

　　用“搭积木”测试大模型

　　为了评估 o1 系列模型的规划能力，作者使用了 PlanBench 评估基准。

　　该基准的提出者中也正好包含了本文三名作者中的两名——共同一作 Karthik Valmeekam，以及他的导师 Subbarao Kambhampati。

　　PlanBench 专门为评估大模型规划能力而设计，任务类型涵盖了计划生成、成本最优规划、计划验证等。

　　具体到这个实验，作者使用了其中来自于国际规划竞赛（IPC）的 Blocksworld 和其变体。

　　此类问题涉及在桌子上堆叠积木块，目标是从一个初始状态，重新排列到目标配置。

　　木块用不同的颜色标识，一次只能移动一个积木块，且只能移动每一堆中顶部的积木块，被拿起的积木块也只能放在顶部或直接放在桌子上。

　　变体 Mystery Blocksworld 则是在 Blockworlds 的基础上加入混淆机制，用一些毫不相干的词语来代替操作中的动作。

　　在此基础之上，还有更为复杂的全随机变体，指令进一步从其他英文单词变成了无意义的字符串。

　　在 o1 之前，Blockworlds 上的 SOTA 模型是 Llama3.1-405B，成绩为达到 62.6%，而在 Mystery Blockworlds 上，没有任何模型的成绩能超过5%。

　　o1-preview 超强规划

　　o1 这边的测试结果显示，preview 相比 mini，成绩优势十分明显。

　　在 Blockworlds 任务上，preview 版准确率达 98%，而 mini 只有 56.6%，表现还不如 llama。

　　当然加入了混淆之后，mini 相比于 llama 也显示出了一些优势——

　　在零样本配置下，preview 版的准确率超过了一半，比 llama 的 4.3% 高出了 11 倍多；mini 版也达到了 19.1%，比 llama 高 3.4 倍。

　　最后在全随机版本下，o1-preview 还能拥有 37.3% 的准确率。

　　以上结果显示出了 o1 系列模型，特别是 o1-preview 的超强规划能力，但是不足之处也十分明显。

　　一是随着规划长度的增加，模型的性能也会迅速下降，即使对于未混淆的 Blockworlds 来说也同样如此。

　　另外，Blockworlds 系列问题并非全部可解，作者发现 o1在识别不可解问题上的准确率依然存在不足。

　　对于未混淆版本准确率只有 27%，但没有误判为不可解的情况；对于全随机版本则只有 16%，另外还有 11.5% 的概率将可解问题误判为不可解。

　　甚至作者还发现，o1 有时也会狡辩，提出令人信服的合理理由，让人们相信其错误答案。

　　在模型本身的性能之外，成本和时间消耗也是一个重要考量，相比于传统大模型，o1-mini 的成本相比 GPT4-Turbo 直接翻番，preview 更是高出了数量级。

　　那么，如果你是开发者，会愿意为了 o1 的高性能付出更多的成本吗？欢迎评论区交流。

　　论文地址：

　　参考链接：

o1规划能力首测！已超越语言模型范畴，preview终于赢mini一回