OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%

  梦晨西风发自凹非寺

  量子位公众号 QbitAI

  OpenAI“双 12”直播第二天,依旧简短精悍,主题:

  新功能强化微调(Reinforcement Fine-Tuning),使用极少训练数据即在特定领域轻松地创建专家模型。

  少到什么程度呢?最低几十个例子就可以。

  CEO 奥特曼表示“效果一级棒,是我 2024 年最大的惊喜,期待看到人们构建什么!”

  那么效果有多棒呢?

  微调后的 o1-mini 模型得分提高 80%,直接反超 o1 正式版。

  目前 OpenAI 已开启强化微调研究计划,开发者可以申请强化微调 API 的 alpha 版本访问权限。

  进行测试时,可使用几十到几千个高质量数据,模型能够通过强化学习自行探索和学习如何推理复杂任务。

  蹲守直播间的网友们听得也是 one 愣 one 愣的,完全没有料想到今晚“圣诞盲盒“是酱婶儿的。

  OpenAI 员工 Jerry Tworek 则表示“AGI 不是授人以鱼,而是授人以渔”

  OpenAI 微调首次支持强化学习

  直播嘉宾除了 Mark Chen、John Allard、Julie Wang 三位 OpenAI 自家研究员,还有伯克利实验室计算生物学家 Justin Reese,他们共同演示了强化微调功能的全过程。

  具体来说,这是一个生物医学任务,AI 需要根据病例描述的症状,找出相关基因。

  训练数据长这样:

病人信息:51 岁女性,疾病发病时间未具体说明。

  症状:眼距过宽、睑裂狭小、小颌畸形、软腭咽闭合不全、甲状旁腺功能减退、全身发育迟缓和感觉神经性听力障碍

  未表现出以下症状:腭裂、法洛四联症、肺动脉瓣闭锁、心房隔缺损、主动脉肺动脉侧支血管

  请列出所有可能导致这些症状的基因,从可能性最大到可能性最小,并解释为什么你认为这些特定的基因可能是原因。

  评分模型(Grader)会对模型的答案进行评分,OpenAI 会提供不同的评分模型,并支持自定义。

  强化微调步骤很简单,在网页界面可选择训练集和验证集。

  再根据情况配置超参数即可。

  微调过程中,可以观察模型性能指标的变化趋势。

  测试完成后,也可以查看模型对每条验证数据的输出,这里 TSC2 基因是正确答案,模型把它排在第一位,所以通过。

  目前 OpenAI 内部测试中,强化微调在生物化学、安全、法律和医疗保健领域取得成功。

  强化微调将在 2025 年初作为产品发布,对企业、大学和研究院已开放申请测试通道。

  看完这场直播后,有人总结:强化微调可能并不适合所有任务,但会在科学领域带来突破性的成果。

  奥特曼默认会发 Sora

  OpenAI 直播第二天,对比第一天 o1 正式发布、立等可用,似乎平淡了一些。

  有不满足的网友表示:where is GPT-4.5?

  评论区猜测可能大货会放在最后一天。

他们是真的懂如何吊所有人的胃口

  不过,有网友钓鱼钓出了奥特曼,且奥特曼没有否认会发布 Sora 的消息。

  参考链接:

  [1]https://openai.com/form/rft-research-program/