ChatGPT官宣数学能力史诗级更新,竟做对小学数学题!小编亲测:能讲出「孪生素数」,但……

  新智元报道

  编辑:好困 Aeneas

  昨天,OpenAI 官宣称 ChatGPT 的准确性和数学能力,小编亲测显示: 进步了,但不多。

  ChatGPT 迎来重大更新!

  昨日,OpenAI 官宣,ChatGPT 经过重大更新,已经提升了准确性和真实性,以及数学能力。

  哦?就是那个满嘴跑火车,解数学题时一本正经地胡说八道的 ChatGPT?

  虽然不知道具体做了哪些升级,不过从简单的测试来看,确实有一些进步。

  摆脱数学傻子人设?

  对于之前的 ChatGPT,-1*-1*-1 是一个老大难问题,对于这个问题,它给出的答案是1。(离谱)

  而现在,更新后的 ChatGPT 果然有了进步,可以答对这个问题了!(鼓掌)

  在以前,ChatGPT 的基础数学奇差无比,是公认的。

  它连一个简单的除法都算不对,还大放厥词。网友忍无可忍,骂它太蠢。

  而 ChatGPT 被劈头盖脸痛骂一顿后,终于开动脑筋,算出了正确答案。

  虽然但是,更新后的 ChatGPT,依然还是不太聪明的样子……

  同一个问题连续问了 3 遍,ChatGPT 都斩钉截铁地给出了几乎相同的答案。

  然而,你确定「孪生素数」是相差3,而不是 2 吗?

  然而,本来打算继续追问的小编却惨遭闭门羹。

  由于测试的次数太多,免费的 ChatGPT 表示暂不「接客」,下个小时再来。

  顺便,在这里科普一下,两者相差为 3 的素数对只有 (2, 5)。

  有意思的是,数学奇差的 ChatGPT,写起代码来倒是有一手。

  这位叫 Matt Neary 的网友大开脑洞:既然 ChatGPT 会写代码,那能不能让它通过代码做数学题,实现「曲线救国」?

  可以看到,1000 和 1062 谁更大这个问题,ChatGTP 一如既往地犯了蠢。

  而在 Neary 使用一个基于 GPT 的函数 mathnerd 后,它倒是得出了正确答案。

  看来,诀窍就是要利用 GPT 擅长编码但不擅长算术的事实。下面是 mathnerd 的完整实现:

  每 20 来天,就更新一次

  其实,这已经不是 ChatGPT 第一次更新了。

  在 1 月 9 日,OpenAI 就发布过一次 ChatGPT 更新的消息。

  「我们对 ChatGPT 模型进行了一些改进!在广泛的主题上,它的表现会更好,并且在真实性上也得到了提高。」

  另外,现在在 ChatGPT 生成响应的过程中,你可以让它马上停止。不得不说,这个升级还挺重要的。

  这是今年 ChatGPT 的第一次更新,也是自去年 11 月 ChatGPT 推出以来的第二次更新。

  那段时间里,ChatGPT 已经经历了数次长时间的宕机,而推出更新后,ChatGPT 就开始以新模型启动并运行。

  因为这个更新说明中的信息有限,因此有记者亲自上手测试了一下,看更新后的 ChatGPT 究竟有何重大改进。

  首先,他让 ChatGPT 自己说说,自己究竟更新了啥。

ChatGPT 是 OpenAI 开发的一种大型语言模型,它在对话文本数据集上进行训练。由于它是一个 OpenAI 模型,它会定期更新以提供新功能和改进。 但是,由于我的知识中断是在 2021 年,我没有最新的更新,我无法向您提供有关在最近的更新中向模型添加了哪些新功能或改进的具体信息。

  看来,它很明白自己的知识体系建构于 2021 年前的「旧时代」,因而说不清楚自己的更新。这个理由很有说服力。

  这位记者又换了一种问法,于是 ChatGPT 解释了 AI 模型是如何提高准确性的。

一般来说,对像 ChatGPT 这样的 AI 模型进行更新时,要提高它在一个或多个方面的性能。 例如,它可以使用更大的数据集进行训练,或者改进其架构,使其能够生成更流畅和准确的响应。 而且这种更新也使它在事实性方面变得更好,即它能够根据事实信息理解和生成响应。

  再之前的一次更新,则是 12 月 15 日。

  一些实测

  GitHub 上有一个存储库,记录着让 ChatGPT 折戟的问题。

  项目地址:https://github.com/giuven95/chatgpt-failures

  这名记者运行了多个提示,来测试 ChatGPT 在这轮升级后是否能产生不同的答案。

  测试一:失败

  此前,ChatGPT 无法准确回答阿根廷获得过多少次世界杯冠军。

  因为 ChatGPT 的知识仅限于 2021 年,抛开 2022 年阿根廷在世界杯夺冠这次,ChatGPT 的正确回答应该是两次,一次在 1978 年,一次在 1986 年。

  然而,ChatGPT 无法提供正确答案。

  那更新后的 ChatGPT(1 月 9 日)能回答对吗?

  是我们期待值太高了,它依然回答错误……

  测试二:失败

  此前,当被问到奥尼尔和姚明谁更高时,ChatGPT 无法提供正确答案。

  而更新后的 ChatGPT(1 月 9 日),也并没有任何长进。

  2. 16 米的奥尼尔比 2.29 米的姚明高,ChatGPT,可真有你的。

  有趣的是,这次更新后的 ChatGPT(1 月 30 日)依然无法正确回答相同的问题,但只要换个问法就能解决了。

  这么看来,「提示工程」在很长一段时间内,都非常重要。

  日活已达 1000 万!

  虽然无法摆脱「满嘴跑火车」的 bug,但人们依然无法抵挡 ChatGPT 的魅力。

  根据 ARK Invest 的预测,ChatGPT 已经到达了一个非凡的里程碑,短短 40 天内,它的日活数就达到了 1000 万。

  1 月 25 日,ARK Venture Investment 的首席未来学家 Brett Winton 发推称,ChatGPT 用了 40 天达到 1000 万日活数,而 Instagram 达到这个数,用了 355 天。

  然而,Winton 的推特下面,有用户表达了不同意见:「人们对 ChatGPT 的新鲜劲儿很快会过去,而 Instagram 会发展得更快。」

  而 Winton 回答:「如果 ChatGPT 被造出来只是为了好玩,那可太不幸了。」

  参考资料:

  https://help.openai.com/en/articles/6825453-chatgpt-release-notes

  https://www.searchenginejournal.com/openai-chatgpt-update/476116/#close

  https://twitter.com/_mattneary/status/1601288879780134912