GPT-4强到离谱,OpenAI拒绝Open!首席科学家:开源并不明智,我们之前错了

  新智元报道

  编辑:Britta 好困

  OpenAI 的联合创始人 Greg Brockman 和首席科学家 Ilya Sutskever 评价 GPT-4 的性能,并对安全问题和开源的争议进行解释。

  毫无疑问,GPT-4 一经发布,就引爆了整个业界和学界。

  凭借着自己强大的推理和多模态能力,引发了一众热议。

  然鹅,GPT-4 不是一个 open 的模型。

  虽然 OpenAI 分享了大量 GPT-4 的基准和测试结果,但是基本上没有提供用于训练的数据、成本、或者用于创建模型的方法。

  当然了,这样的「独家秘笈」OpenAI 肯定不会公布了。

  马库斯直接拿出当初 OpenAI 的初衷,发文嘲讽了一波。

  网友改进了一个版本。

  人无完人,GPT-4 也是

  当 OpenAI 的总裁、联合创始人之一 Greg Brockman 将 GPT-4 和 GPT-3 进行比较时,他说了一个词——不同。

  「它只是不同而已,模型仍然有很多问题和错误......但你真的可以看到它在微积分或法律等方面的技能提升。在某些领域,它从表现非常糟糕进化到现在足以匹敌人类。」

  GPT-4 的测试结果很不错:在 AP 微积分 BC 考试中,GPT-4 得了 4 分,而 GPT-3 得了 1 分。在模拟的律师考试中,GPT-4 以大约前 10% 考生的分数通过;GPT-3.5 的分数徘徊在后 10%。

  在上下文能力,也就是说在生成文本之前可以记忆的文本方面,GPT-4 大约能够记住 50 页左右的内容,是 GPT-3 的 8 倍。

  在提示方面,GPT-3 和 GPT-3.5 只能接受文字提示:「写一篇关于长颈鹿的文章」,而多模态的 GPT-4 可以接受图片和文字的提示:给出一张长颈鹿的图片,提示问「这里有多少只长颈鹿?」 这些 GPT-4 都能答对,而且它的读梗能力也很强!

  我们之前错了,开源并不明智

  而强到离谱的 GPT-4 一发布,便引起了大量研究人员和专家的兴趣。但令人失望的是,OpenAI 发布的 GPT-4,不是「Open 的 AI 模型。」

  尽管 OpenAI 分享了大量 GPT-4 的基准、测试结果和有趣的演示,但基本上没有提供用于训练该系统的数据、能源成本或用于创建它的具体硬件或方法的相关信息。

  之前 Meta 的 LLaMa 模型泄露的时候,就引发过一波关于开源的讨论。不过,这次大家对于 GPT-4 封闭模型的最初反应是大部分都是负面的。

  人工智能社区普遍认为,这不仅破坏了 OpenAI 作为研究机构的创始精神,而且让其他人难以制定保障措施来应对威胁。

  Nomic AI 的信息设计副总裁 Ben Schmidt 表示,由于无法看到 GPT-4 是在什么数据上训练的,大家很难知道该系统在什么地方是安全使用的,并提出修复方案。

  「为了让人们知道这个模型什么地方不起作用,OpenAI 需要更好地了解 GPT-4 所做的事情以及其中的假设。我可不会在下雪的时候,相信一个没有在雪地气候情况下训练出来的自动驾驶汽车。因为很可能,漏洞和问题只在真实使用的时候才会浮现。」

  对此,OpenAI 的首席科学家兼联合创始人 Ilya Sutskever 解释称:OpenAI 不分享更多关于 GPT-4 的信息是因为害怕竞争,也是因为对安全的担忧,这一点是毋庸置疑的。

  「外面的竞争很激烈,GPT-4 的开发并不容易。几乎所有的 OpenAI 的员工在一起工作了很长时间才生产出这个东西。从竞争的角度来看,有很多很多公司都想做同样的事情,而 GPT-4 像是一个成熟的果实。」

  众所周知,OpenAI 在 2015 年成立之初是一个非营利组织。其创始人包括 Sutskever、现任首席执行官 Sam Altman、总裁 Greg Brockman 以及现已离开 OpenAI 的马斯克。

  Sutskever 等人曾表示,该组织的目标是为每个人创造价值,而不是单单为股东创造价值,并表示将与该领域的各方进行「自由合作」。

  然而,为了获得数十亿美元的投资(主要来自微软),OpenAI 还是被加盖了一层商业属性。

  不过,当被问及为什么 OpenAI 改变了分享其研究的方法时,Sutskever 简单地回答道:

  「我们错了。在某个时候,AI/AGI 将变得极其强大,那时,开源就是没有意义的。可以预料的是,在几年内,每个人都会完全明白,开源人工智能是不明智的。因为这个模型是非常有力的。如果有人想,用它就能够造成巨大的伤害,这将是相当容易的。所以随着模型的能力越来越高,不想披露它们是有道理的。」

  Lightning AI 的首席执行官和开源工具 PyTorch Lightning 的创建者 William Falcon 从商业角度解读称:「作为一家公司,你完全有权利这样做。」

  安全风险

  与此同时,Brockman 也认为 GPT-4 的应用推广应当是缓慢推进的,因为 OpenAI 正在评估风险和利益。

  「我们需要解决一些政策问题,如面部识别和如何对待人的图像,我们需要弄清楚,危险区在哪里,红线在哪里,然后慢慢澄清这些点。」

  还有就是老生常谈的,GPT-4 被用来干坏事的风险。

  以色列网络安全初创公司 Adversa AI 发表了一篇博文,展示了绕过 OpenAI 的内容过滤器,让 GPT-4 生成钓鱼邮件、生成对同性恋者的攻击性描述等让人高度反感的文本的方法。

  因此,很多人都希望 GPT-4 在审核方面带来重大改进。

  针对这一点,Brockman 强调,他们花了很多时间试图了解 GPT-4 的能力,而该模型已经经历了六个月的安全培训。在内部测试中,对于 OpenAI 的使用政策所不允许的内容,GPT-4 作出反应的可能性比 GPT-3.5 低 82%,产生「事实性」反应的可能性高 40%。

  不过,Brockman 并不否认 GPT-4 在这方面的不足。但他强调了该模型的新的缓和导向工具,称为「系统信息」的 API 级能力。

  系统信息本质上是为 GPT-4 的互动设定基调,并建立界限的指令。这样,以系统信息作为护栏,就可以防止 GPT-4 偏离方向。

  例如,一条系统信息的人设可能是这样的:「你是一个总是以苏格拉底方式回答问题的导师。你从不给学生答案,而是总是试图提出正确的问题,帮助他们学会自己思考。」

  新的道路

  其实,从一定程度上,Sutskever 也认同批评者的观点:「如果更多的人愿意研究这些模型,我们会对它们有更多的了解,这将是好事。」

  所以 OpenAI 出于这些原因,向某些学术和研究机构提供了访问其系统的机会。

  而且 Brockman 还提到了 Evals,这是 OpenAI 新近开源的软件框架,用于评估其人工智能模型的性能。

  Evals 采用的是模型测试众包的方式,让用户开发和运行评估 GPT-4 等模型的基准,同时检查其性能,这也是 OpenAI 致力于「健全」模型的标志之一。

  「通过 Evals,我们可以看到用户关心的用例,能够以一种系统的形式进行测试。我们开源的部分原因是,我们正在从每三个月发布一个新模型转向不断改进新模型。当我们制作新的模型版本时,我们至少可以通过开源知道这些变化是什么。」

  其实,关于共享研究的讨论一直颇为火热。一方面,谷歌和微软这样的科技巨头正急于将人工智能功能添加到他们的产品中,往往会将以前的道德问题搁置一边,微软最近就解雇了一个团队,该团队是专门确保人工智能产品遵循道德准则的);另一方面;技术的迅速改善引发了人们对人工智能的担忧。

  英国人工智能政策负责人 Jess Whittlestone 说,平衡这些不同的压力带来了严重的治理挑战,这意味着我们可能需要第三方监管机构参与。

  「OpenAI 不分享关于 GPT-4 的更多细节的出发点是好的,但也可能导致人工智能世界的权力集中化。这些决定不应该由个别公司来做。」

  Whittlestone 说:「理想的情况是,我们需要把这里的做法编纂成册,然后让独立的第三方去审查与某些模型相关的风险。」

  参考资料:

  https://techcrunch.com/2023/03/15/interview-with-openais-greg-brockman-gpt-4-isnt-perfect-but-neither-are-you/

  https://www.theverge.com/2023/3/15/23640180/openai-gpt-4-launch-closed-research-ilya-sutskever-interview