研究:ChatGPT 回答编程问题时错误率高达 52%

  普渡大学的研究人员近期针对 ChatGPT 回答编程问题的特点进行了一次全面的研究。通过对 Stack Overflow 上 517 个编程问题的 ChatGPT 答案进行深入分析,考察了 ChatGPT 答案的正确性、一致性、全面性和简洁性;并进行了大规模的语言分析和用户研究,从语言和人性化方面了解 ChatGPT 答案的特点。

  结果表明,52% 的 ChatGPT 答案包含错误信息,77% 的答案过于冗长,以及 78% 的答案与人类的答案存在不同程度的不一致。深入的人工分析结果还表明,ChatGPT 答案中存在大量概念和逻辑错误。

  但尽管如此,仍有 35% 的研究参与表示更喜欢 ChatGPT 答案,因为它们内容全面,语言风格清晰明了。还有 39% 的人更是没有发现 ChatGPT 答案中的错误信息。“这意味着有必要反击 ChatGPT 回答编程问题时的错误信息,并提高人们对看似正确的答案所带来的风险的认识。”

  通过对 2000 个随机选择的 ChatGPT 答案进行语言分析则发现,它们 “更正式、更具分析性”。同时还表现出了 “更少的负面情绪”,是典型的 AI 倾向于产生的那种平淡而愉快的语气。

  研究人员指出,也正是因为礼貌用语、铿锵有力和教科书式的回答以及全面性,使得 ChatGPT 答案看起来更有说服力,从而导致用户降低了警惕性,忽略了 ChatGPT 答案中的一些错误信息。

“虽然我们的用户研究显示,用户对人工答案的偏好度和质量评分都较高,但用户偶尔也会犯错,他们会根据 ChatGPT 的语言风格,偏好不正确的 ChatGPT 答案,以及用正面论断呈现的看似正确的逻辑。由于 ChatGPT 会产生大量错误答案,我们的研究结果强调了在编程任务中使用 ChatGPT 答案时必须谨慎并提高警惕。这项工作还旨在鼓励进一步研究如何识别和减少不同类型的概念和事实错误。最后,我们希望这项工作能促进更多关于机器生成答案中不正确性的透明度和交流的研究,尤其是在编程方面。”

  详情可查看完整报告。