Codex自我蒸馏玩法火了!OpenAI员工:复制就能让AI消灭重复劳动

  听雨发自凹非寺量子位 | 公众号 QbitAI

  Codex 自家程序员,直接把 Codex「自我蒸馏」的秘籍给爆出来了…

  只需要把一段提示词,直接复制粘贴进 Codex。

  它就会主动翻查你的历史会话,找出你一直在手动重复做的事,然后替你把这些工作流打包成可复用的工具。

  这位 Codex 成员可以说是相当慷慨,经过网友反馈之后,他还立马迭代出了一个 2.0 版本。

  这怎么说呢…老哥还是太全面了。

  OpenAI 总裁 Greg Brockman 也亲自赶来转发点赞了。

  有意思的是,Brockman 还同时转发了一条冷知识:Codex 是开源的

  Codex 自我蒸馏,怎么做到的?

  我们来细品一下 Vabihav(就叫他 VB 吧)发布的这两版提示词。

  第一版是酱婶儿的:

  • 看看我最近的会话,找出重复的工作流或重复的请求。
  • 对于我一直在手动做的事,给我建议:
  1. 如果是可复用工作流,创建一个 skill;2. 如果是有边界的角色或调查任务,创建一个 custom subagent。

  重点关注 CI 失败、PR 审查、changelog、文档更新、发版准备、调试、测试分诊这类实际工作。

  只创建有用的,保持简洁。

  很短,只有 9 行。

  直接把这段提示词复制粘贴进 Codex,它就会开始开始翻你的历史会话,找出那些你反复在做的动作。

  然后告诉你这件事该做成 skill,那件事更适合派个 subagent 去专门负责。

  咋说呢,这提示词简洁是简洁。

  但 CI 失败、PR 审查、changelog 这些名词…感觉都太专业了,好像是程序员专属提示词。

  果不其然,第一版发出来之后,评论区立刻涌进了一堆反馈。

  VB 老哥也是没闲着,紧赶慢赶当天就更新了第二版。

  直接把数据源和覆盖范围都扩大了一圈。

  提示词也变长了不少,从 9 行变成了 35 行:

  中文版也贴在这里:

  回顾我过去 30 天的工作记录,找出值得打包的重复手动工作流。

  按优先级使用以下数据源:最近的 Codex 会话和任务摘要;Codex Memories 和汇总记录,找跨会话的重复模式;如果开了 Chronicle,用它发现 Codex 以外的重复工作(仅用于发现,重要细节需回原始系统确认);已有的 skill、custom agent 和 automation,优先复用或扩展,不要重复造轮子。

  要广撒网:编码、调研、写作、规划、沟通、运营、分析、个人事务都算。

  只在以下条件都满足时才动手:发生过至少两次,或明确可能再发生且重来代价高;有稳定输入、可重复流程和明确输出;能实质改善速度、质量或可靠性;现有工具还没覆盖。选最小适用形式:Skill、Custom subagent、Automation、Skip。

  先输出候选清单,再创建高置信度的项目,最后告诉我创建了什么、跳过了什么、还需要更多证据的是什么。

  和第一版相比呢,主要有三处升级:

  数据源从「最近会话」扩展到了 Memories 和 Chronicle,Codex 能看到的东西也是多出不少。

  覆盖范围从编码任务扩到写作、规划、沟通、运营,几乎包含了你全部的工作场景。

  (不只是程序员哈,咱写文章的、做运营的、搞策划的都能用了)

  输出也从「给建议」升级成了「直接创建」,高置信度的条目,它自己就动手了。

  打包出来的结果分四种:

  • 每周重复的固定流程,做成 Skill;
  • 需要专门角色去搞定的调查任务,派 Subagent;
  • 定时触发、不需要人盯的检查,做成 Automation;
  • 只发生过一次、边界模糊的,直接 Skip,不打包。

  评论区的反应也印证了这条提示词的实用性。有网友当场喊话:

  「把它做成插件,叫 /dream,给我发版税。」

  VB 本人也在评论里承认,确实应该做成正式插件,只是 dream 这个名字…他不太买账哈。

  不过也有网友质疑,回看 30 天的历史记录,这得烧多少 token 啊??

  不得不说,token 确实是大家最关心的问题…

  不过 VB 并没有给出回应,可能作为内部人员在 token 方面还是很有保障的吧。

  而且 OpenAI 最近一直在疯狂重置 Codex 的速率限制,感兴趣的友友们还是可以大胆一试的。

  还有网友试用后发现,他自动生成的 skill 有一半来自「在输入还没稳定的时候就做过两次的事」。

  结果维护这些抽象的成本比直接重做还高。

  他的问题是:到底是让 Codex 自己判断要不要打包,还是人工把关?

  它依赖哪些 Codex 新功能

  可能大家也看出来了。

  VB 这条提示词涉及的 Chronicl、Memory 和 Subagent,都是 Codex 这两个月猛猛连发的几个新功能。

  最新的是Chronicle,4 月 20 日刚上线,目前还是预览版。

  它的作用是屏幕截取,如果你开了这个功能,Codex 就能看到你在浏览器、Slack、邮件里做了什么。

  当然,它也可以看到你所做的重复工作了。

  不过,Chronicle 目前只对 macOS 上的 ChatGPT Pro 订阅用户开放,而且记忆未加密存储在本地,会快速消耗 rate limit,提示词注入风险也更高。

  Memory 功能,是 4 月 16 日随 Codex 大更新一起上线的,也是预览功能。

  它可以记住用户偏好、修正记录和项目专属知识,并在未来会话中自动调用。

  Subagent 功能则更早一些,3 月正式上线。

  它由一个管理 Agent 协调多个专门编码 Agent,每个 Agent 在独立的云端沙盒中运行。

  VB,一个爱整活的 OpenAI 员工

  最后我们来介绍一下 Vaibhav Srivastav,这也是一个很有意思的人。

  他是 OpenAI Codex 团队成员,也是前 HuggingFace 成员。

  曾在 HuggingFace 担任机器学习开发者布道师,以及开发者体验与社区负责人。

  他应该是目前 Codex 生态里最能整活的内容输出者之一。

  在他的X账号里,全是他依赖 Codex 处理日常事务的印记。

  就在昨天,他还在试图用 Codex 配置自己的树莓派,确保设备接入家庭 WiFi 后能远程访问。

  而在 5 月 22 日,他宣称自己「已经超过一个月没有打开过 IDE 了」,光用 Codex 已经完全足够。

  「一个 App 统治一切!」

  真是 Codex 最最最忠实的粉丝了。

  除了这条自我蒸馏提示词,从他的推文里,量子位还挖出了不少 Codex 有意思的玩法。

  比如 Codex 的/goal 命令:给 Codex 定一个「完成态」,告诉它成功的样子是什么,然后让它一直跑到达成目标。

  背后有一个验证器在每一步结束后判断「目标是否达成」,如果没有,主模型继续执行。

  这个功能特别适合大规模重构、代码迁移、长期实验,或者那些「只要不停就能做完」的任务。

  Codex 0.128.0 版本起可用,通过 /goal 命令触发。

  感兴趣的友友们,链接已经附在下方,快打开你的 Codex 试试吧~

  [1]https://x.com/reach_vb/status/2058538305872949490

  [2]https://x.com/reach_vb/status/2052805243268718803