当地时间 12 月 5 日-20 日,人工智能巨头 OpenAI 完成了连续 12 个工作日的 12 场直播,从首日的满血版 o1 模型重磅发布,再到期待许久的 Sora Turbo 正式发布,最终又以新一代推理模型 o3 收官,OpenAI CEO 山姆·奥特曼(Sam Altman)还在四场直播中现身站台,我们似乎离 AGI(Artificial General Intelligence,通用人工智能)又更近了一步。
CNBC 评价称,这次连续 12 天直播的噱头是 OpenAI 将焦点转向其技术并为其产品造势的一种方式。这是公司积极发展计划的一部分,因为它要与创业公司和科技巨头争夺生成式人工智能市场的更大份额。不过,这次活动在某些方面因其强有力的年终宣传而受到称赞,但也有人批评其炒作成分多于实质内容。
《纽约》杂志评价称,目前 OpenAI 正面临内部领导层变动、与微软的资源紧张关系,以及对 AGI 进展的争论,此次活动在展示新产品和功能的同时,也表现出一定的防御性。
让我们来一起回顾 OpenAI 叩响 AGI 之门的这 12 天。
第 1 天(当地时间 12 月 5 日):满血版 o1 模型和 ChatGPT Pro
山姆·奥特曼现身首场直播
正式版 o1 提升了推理逻辑能力。可以解决国际数学奥林匹克资格考试中 83% 的问题(GPT-4o 在该测试中的得分只有 13%)。
响应时间得到改善。在演示中,研究人员向 o1 提了一个问题:列出罗马帝国在公元 2 世纪的统治者,包含其在位时间和成就。o1 花了将近 18 秒来回答,远低于 4o 模型,比 o1-preview 的速度提高了约 60%。
解锁多模态图像识别功能。能够转录笔迹、测算相对大小,甚至可以解释如何将随机零件装入更大的机器中。
满血版 o1 的响应时间得到改善
同时,当天还推出了 ChatGPT Pro 订阅计划,每月 200 美元,提供了无次数限制使用 o1、高级语音模式等模型的权限。
大部分评论对完整版 o1 的推出表现得较为积极,不过也有用户吐槽在缺少高级功能的现在,o1 仍然只是一个“预览版”,也有用户对当天的更新中没有免费产品表示了不满。
对于 ChatGPT Pro,有分析指出,这进一步证明了大模型的“烧钱”速度,在愈发激烈的 AI 竞赛中,OpenAI 急需通过 o1 模型来证明自己。
第 2 天(当地时间 12 月 6 日):强化学习微调(RFT,Reinforcement Fine-Tuning)
用户能够利用少量的训练数据,也能在特定领域快速构建专家级模型。
OpenAI 的研究员称,强化微调并不是单单教模型输出,它的运作方式是,当模型发现一个问题的时候,研究者给模型空间仔细思考这个问题,然后评估模型给出的最终解答,运用强化学习,研究者可以强化产生正确答案的思路,抑制产生错误答案的思路。
强化微调后的 o1-mini,在 top@1(正确答案在列表第 1 个位置的概率)、top@5(正确答案在列表前 5 个位置的概率)和 top@max(输出中包含正确答案的概率)指标上,表现都明显胜过性能更加强大的 o1。
强化微调后的 o1-mini 与 o1 性能对比
OpenAI 高级副总裁 Mark Chen 表示,强化微调能力预示着小体量模型也能“从高中水平跃升至专家水平”,为企业和科研单位提供了强大的工具。
第 3 天(当地时间 12 月 9 日):Sora Turbo 正式发布
OpenAI 发布 Sora Turbo
Sora Turbo 可以生成 1080p、最长 20 秒的视频,支持横屏(16:9)、正方形(1:1)和竖屏(9:16)多种常见比例,并且可以对生成的视频进行 Remix(重混):替换、删除或重构视频中的元素,Re-cut(重新切割):找到最佳的一帧再进行延展,循环剪辑,混合:将两个视频进行无缝合并剪辑,故事板剪辑:精准指定每个帧的输入,风格预设:预设创建视频的风格等操作。
奥特曼表示,最令他兴奋的一点是与其他人共同创作的便捷性,感觉就像是一个有趣的新事物。大家可以将 Sora 看作视频版的 GPT-1。
根据网友实测反馈,对物理规律的理解并不够好,仍会出现人的手部不自然、文字乱码、动物跑着跑着就飞起来等情况。
也有外媒指出,Sora 发布未能达到最初预期,尽管 OpenAI 努力推出更快、更实惠的版本,但最终产品缺乏预期的高级功能。与 ChatGPT 的早期阶段进行比较,Sora 目前更像视频编辑软件,而非突破性的 AI。
美联社则指出,像 Sora 这样的文生视频 AI 工具被认为是制作新的娱乐和营销视频时节省成本的方式,但也引发了人们对其在政治和其他领域是否容易冒充真人的担忧。OpenAI 发布 Sora 限制了对人物的描绘,防止了如冒充和深度伪造等滥用情况的出现。
第 4 天(当地时间 12 月 10 日):Canvas 升级
Canvas 是 OpenAI 在今年 10 月推出的全新功能,OpenAI 将其定义为 “使用 ChatGPT 编写和编码的全新工作方式”。
Canvas 在单独的窗口中打开,用户和 ChatGPT 就项目进行协作,不仅仅是通过对话,而是共同创作和完善想法。
可以协作编辑文档,修改标题、添加表情符号、调整文本长度等。
Canvas 还支持 Python 代码运行和调试,能直接查看文本和图形输出,并且 ChatGPT 能辅助调试并提供修改建议,用户可以快速迭代代码。
Canvas 界面
外媒对 Canvas 都给予了积极评价,认为有效提升了用户与 AI 在写作和编码方面的协作体验,标志着 AI 工具在人机交互领域的又一进步。
第 5 天(当地时间 12 月 11 日):ChatGPT 正式集成到苹果系统
ChatGPT 正式接入苹果系统
ChatGPT 正式集成到苹果系统中,用户可通过 Siri 访问 ChatGPT 功能,并支持语音控制设备。
当 Siri 判断 ChatGPT 能够更好地满足用户请求时,会自动将请求转发给 OpenAI 的系统。用户操作前需先启用该功能,以便保障隐私。
苹果的智能写作工具引入 ChatGPT 能力。用户不仅能优化、总结文档,提取关键信息,还能从零开始创作全新文档,甚至结合 DALL-E 图像生成技术在撰写过程中融入图片。
用户还可以轻触苹果的“相机控制”按钮完成视觉智能相关任务,例如快速识别眼前物品,或深入了解所看到的内容,进行翻译、总结等。
路透社指出,此次发布正值圣诞节假日购物旺季,也是公司一年中销售利润最丰厚的时期,或许对于苹果产品的销售带来影响。目前苹果智能功能的推出速度缓慢,也引发了一些投资者对 iPhone 16 销售周期力度的担忧。
第 6 天(当地时间 12 月 12 日):增强 ChatGPT 高级语音模式
GPT-4o 多模态能力得到进一步加强
GPT-4o 增强多模态能力,推出实时视频理解功能,还推出限时圣诞老人语音模式。
用户可直接输入音频,理解并直接输出音频,可以把手机图片或短信等展示给 ChatGPT,它将解读并分析这些内容,协助用户回复消息、工作等。
第 7 天(当地时间 12 月 13 日):Projects 功能发布
Project 界面
Project(项目)支持用户将文件、聊天记录等信息集中到一个“Project”中,与 OpenAI 竞争对手 Anthropic 此前推出的 Claude 新功能有异曲同工之处。
可进行文件上传、设定个性化指令等操作,也支持将过往聊天记录添加到项目中,定制 ChatGPT 的对话。创建新对话时也能自动搜索项目中的其他信息,进行更精准的回答。此外,还支持 Canvas 界面,能通过 ChatGPT Search 轻松接入互联网。
第 8 天(当地时间 12 月 16 日):ChatGPT Search 开放
ChatGPT Search 正式向所有用户开放,优化了搜索速度和准确性,新增语音搜索功能与地图集成,全球同步上线,提升实时信息获取体验。
以更自然、更会话的方式提问,ChatGPT 可以选择用网络信息进行回复。如果深入追问,ChatGPT 会考虑您聊天的全部上下文,提供更好的答案。
ChatGPT Search 演示对话
新媒体集团 VoxMedia 总裁评价称,ChatGPT Search 有望更好地突出值得信赖的新闻来源的信息并对其进行归属,使受众受益,同时扩大提供优质新闻的出版商的影响力。
第 9 天(当地时间 12 月 17 日):o1 API 正式版
OpenAI 称 o1 API 为功能更强大的模型、新的定制工具,可提高性能、灵活性和成本效益的升级。
支持函数调用、结构化输出和视觉功能;更新支持低延迟自然对话体验 Realtime API,可进行简单的 WebRTC 集成,GPT-4o 音频的定价降 60%,GPT-4o mini 音频费率降为1/10;支持偏好微调,可根据用户和开发人员的偏好更轻松地定制模型;同时还推出了新的 Go 和 Java SDK 测试版。
Realtime API 界面
OpenAI 给这一天的发布取名为“为开发人员准备的节日礼物”。
第 10 天(当地时间 12 月 18 日):推出 ChatGPT 热线
只要电话拨通免费号码就能免费使用 ChatGPT15 分钟
发布1-800-CHAT-GPT 服务,支持 WhatsApp 即时通讯,同时只要电话拨通免费号码,OpenAI 将通过热线提供 15 分钟的免费 ChatGPT 使用时间。
OpenAI 首席产品官凯文·韦尔(Kevin Weil)在表示:“我们才刚刚开始让每个人都能更方便地使用 ChatGPT。”
有外媒试用了该服务后报道称,AI 语音非常逼真,但通话时间限制为每月 15 分钟,且或许会存在隐私安全问题。
第 11 天(当地时间 12 月 19 日):ChatGPT 桌面版新增跨应用访问功能
ChatGPT 桌面版支持跨应用访问
ChatGPT 桌面版可读取其他应用程序中的数据,实现实时协作。新增了更多编程环境和生产力工具的支持,可以与 Apple Notes 等无缝对接,并支持在使用桌面应用时开启高级语音模式(该功能需要用户手动为每个应用开启)。
第 12 天(当地时间 12 月 20 日):o3 模型发布
OpenAI 的 12 天 12 场直播收官发布推理模型 o3 系列
发布最新推理模型 o3 和 o3-mini,推理能力大幅提升,支持多模式推理。
据介绍,在编码测试 SWE-Bench Verified 中,o3 性能比 o1 高出 22.8%;在 Codeforces 竞技编程中得分为 2727 分,相当于位列第 175 名的人类选手,甚至超过了 OpenAI 的首席科学家(2655 分);在数学竞赛 AIME 2024 和专家级科学问题基准测试 GPQA Diamond 中成绩都得到明显提升;而在令很多 AI 和数学家都束手无策的最难数学和推理挑战 FrontierMath 中,o3 解决了 25.2% 的问题,其他模型均未超过2%。
OpenAI 还表示正使用一种新技术“慎重对齐”(deliberative alignment),来使 o3 等模型符合其安全原则。
弗朗索瓦·肖莱对于 o3 不同计算模式的测试结果
ARC-AGI(通用人工智能抽象与推理语料库)发起者、Keras(用 Python 编写的高级神经网络 API)之父弗朗索瓦·肖莱(Francois Chollet)认为,虽然 o3 给人留下了深刻印象,是迈向 AGI 的一个重要里程碑,但并不就是 AGI,仍然有相当多非常简单的 ARC-AGI-1 的任务是 o3 无法解决的,同时还有迹象表明 ARC-AGI-2 对 o3 来说仍极具挑战性,“这表明在不涉及专业知识的情况下,创建对人类来说容易但对人工智能来说不可能的不饱和、有趣的基准仍然是可行的。当创建这样的测试变得完全不可能时,我们将拥有 AGI”。
路透社对此评价称,o3 的发布表明了 OpenAI 与谷歌等竞争对手的竞争日趋激烈,双方都在努力创造能够解决复杂问题的更智能模型。谷歌在 12 月早些时候发布了第二代人工智能模型 Gemini,旨在能够在人工智能技术竞赛中夺回领先地位。
此外,在 OpenAI 发布 o3 后,华尔街日报发表了一篇名为 “人工智能的下一次重大飞跃落后于时间表,而且昂贵得令人发指 ”的文章,指出 OpenAI 在其代号为 “猎户座 ”的新人工智能项目中遇到了诸多问题,项目进度落后,而且耗资巨大。文章也指出了对于“数据瓶颈”的担忧:“目前尚不清楚何时或能否成功,世界上可能没有足够的数据让它变得足够聪明”。
奥特曼则转发了该篇文章表达了不满之情。
第 13 天的彩蛋(当地时间 12 月 22 日):Plus 用户 Sora 限时(圣诞假期)无限使用
奥特曼宣布,12 月下旬,随着圣诞假期的到来,人们从工作中解脱出来,OpenAI 的算力将不再紧张,因此将在假期内为所有 Plus 用户提供无限的 Sora 访问权限。
山姆·奥特曼的推文
在 OpenAI 连续密集发布的新品中,不难发现,ChatGPT Pro 的推出进一步证明了大模型的“烧钱”速度,多模态、定制化、隐私这些“安全易用”相关内容被多次强调,也体现出 OpenAI 急需通过更强的模型产品来证明自己。
可以看到的是,AI 竞赛愈发激烈。谷歌、Pika 等竞争对手也在这 12 天内发布了各自的新产品进行“狙击”,而 OpenAI 面临的最大挑战莫过于曾经的联合创始人埃隆·马斯克(Elon Musk),马斯克目前旗下拥有了人工智能初创公司 xAI,并准备在特朗普政府中发挥重要影响。