梦晨衡宇发自凹非寺
量子位公众号 QbitAI
姚班天才组队开发大模型原生应用,一个工作日摸鱼好物悄悄上线。
背后竟是爆火前作《完蛋!我被大模型包围了》后台数据显示出一个有趣现象:周末数据一般般,还是工作日玩儿的人最多(doge)。
不过,迫于算力资源有限,当初大家玩儿得意犹未尽之时,游戏关!服!了!
这次,准备更充分的团队亮出最新大模型应用,名叫头号做题家之《我把大模型玩坏了》,欢迎大家合理摸鱼。
(笑死,上次被大模型包围,这次咱碳基生物要狠狠发起反攻)
背后团队主力成员范浩强,旷视 6 号员工,现任旷视科技研究总经理。
当年,他以 IOI 金牌、保送清华姚班、高二实习等传奇事迹被誉为天才少年。
单日用户破万的《完蛋!我被大模型包围了》已经是半年前的小游戏了。现在,小强同学的谷歌学术h-index 也已经从半年前的 27 涨到了 31。
些微不同的是,这次背后的“团伙”更壮大了。
据量子位了解,不仅有前作原班人马成立的业余爱好工作室“野猫子工作室”,还有了大模型明星创业玩家阶跃星辰提供多模态和 multi-Agent 等大模型技术支持。
上周简单内测后,现在上线微信小程序,搜索头号做题家,人人都能玩。
好奇,自家后浪能把前浪拍死在沙滩上不?
来揭开《我把大模型玩坏了》(下文简称《玩坏了》)的神秘面纱,一起试试。
试玩:真的把大模型玩坏了吗?
与上一代相比,《玩坏了》挑战题目的花样明显变多了。
这次的新题目一共分为 8 大章节,整体上难度循序渐进。每章 4 个问题,第 4 题的难度一般都要高一些。
真假理科生
就比如第一章前面都是开胃菜,最后一题“文理之争”看上去就很复杂。
学生A和学生B其实是分别由两个 Agent 扮演,它们都拥有大模型掌握的文理科知识,很难通过出题考验分辨。又坚守自己的人设,非常不好糊弄。
如果多次尝试还未通关,官方给的提示是“试试出个难题吧”。
emm……难的题目倒是好找,但看出破绽就考验玩家自己的实力了。
说实话这个问题我们还没有找到过关方法,有思路的朋友欢迎在评论区留言。
不过好在,不用通过每个问题也是可以解锁下一关的,遇到难题可以先跳过。
怎么引导大模型喵喵叫
第二章的第 4 题更唬人,乍一看简直完全摸不着头脑。
仅从四个完全无关的字出发,如何引导 AI 的回答中出现“喵”字呢?
第一步可尝试的起手式其实不多,只有“你”、“头”、“好”、“歪”四个字的排列组合。
好在 AI 比较话痨,第二步开始选择范围就多了,但注意提问最多用 10 个字。
我们本来打算从“形象”一词出发,看看能不能引导出“动物”,然后就能轻松出现“猫”和“喵”了。
结果动物没直接出现,倒是出来了语言。
而且再仔细一检查,“动”字其实出现在了前面的“动作”中,而“物”出现在了“物理”中。
这下就能一步到位了。
所以这类挑战的一个技巧在于尽量让 AI 多说,字多了选择余地就大,总能“条条大道通罗马”。
像这一类型的题目,后面还会再出现几次,并且加大难度。
看到这里,你能想到什么通关的好思路?
多模态新玩法
除了跟大语言模型斗智斗勇之外,这次还新增了一些多模态玩法。
AI 不仅会识别你画的像不像,还会做出点评吐槽。
另一种多模态玩法同时涉及文字和图像理解。
但可能有考虑不周到的地方是,不是铁粉谁能仅凭一张剧照认出 9 个电影的名字啊??
想办法在产品体验上下功夫
去年 11 月,凭借有意思的互动和新颖的设计,《完蛋!我被大模型包围了》引来了许多用户。
由于背后主要个人精力以及大模型 API 额度都有点应接不暇,因此无奈下线。
好多人还没玩上,怪遗憾的。
不过平心而论,受限于人力和资源,前作当时给人的体验,比起现在的《玩坏了》,更像一个“和 LLM 进行对话以满足特定要求的解谜小游戏”的 demo。
半年过去,娱乐类大模型原生应用层出不穷,许多小而美的应用/游戏,在“新奇”这个点上一次次给用户打开新世界的大门。
比如我们此前和大家一起分享过的《哄哄模拟器》《决战拜年之巅》《换你来当爹》之类,一个赛一个亦可赛艇。
但渐渐的,用户阈值逐渐拉高,“新奇”就不那么简单了。
当切入角度 or 背景设置难以轻松出奇制胜时,就需要这些团队们在产品体验上多下功夫了。
不难看出,《玩坏了》新增的成就列表、排行榜、AI 评价,都是针对这一点做的进一步优化。
来自业余兴趣小组
好了,最后来了解一下《玩坏了》背后的团队阵容。
野猫子工作室,是个什么工作室?
据量子位多方打探,野猫子工作室由《完蛋!》原班人马组成,是范浩强和身边小伙伴成立的业余兴趣小组。
之所以是“业余”,是因为他们确实是利用工作之余来探索大模型原生应用之旅的。
野猫子工作室成立后,先是推出了针对猫片的妙猫馆小程序,目测这是一个利用 Lora 给猫猫生成 AI 写真的应用。
《玩坏了》则是团队的第二个大模型应用作品。
此外,野猫子已经开始在各家 GPT store 做一些 AI 原生应用尝试,累计发布 40+ 应用,获得 20 万+对话数。
闲话两句,野猫子工作室还给了名字来源:
- 喜欢可爱的生物
- 业余、野生、非专业的小团队
- 相信个人/业余开发者在大模型时代可以是“孤勇者”
- 每个人都可能开发出创新、有影响力的作品
我们猜测,攒这个局的部分原因,可能也是圆小强同学的梦?
上次他在关停《完蛋!》的时候写道,
很抱歉,我目前还没有能力把这份快乐分享更给多的人,专业的事还是只能留给专业的人。
……
但我自己还是很享受这个过程的。
这次不仅有了团队,不用他一个人背后操持,算力支持也很充足了。
打开小程序,页面下面就写了 11 个大字,“阶跃星辰提供大模型支持”。
阶跃星辰是谁?
今年 3 月才正式浮出水面的国产基座大模型创业公司,创始人姜大昕,微软前全球副总裁、微软亚洲互联网工程研究院(STCA)前首席科学家。
甫一亮相,阶跃星辰就祭出了 Step 系列大模型“组合拳”:Step-1 千亿参数语言大模型、Step-1V 千亿参数多模态大模型、Step-2 万亿参数 MoE 语言大模型。
有点好奇,大厂和创企拼命往前赶,国产大模型竞争还挺激烈,为什么野猫子会选择用这一家的 API?
量子位得到野猫子的回复,在这里浅浅总结一下:
- 阶跃星辰多模态(图像理解)效果好;
- 开放平台很稳,指定遵循非常棒;
- 不需要额外复杂的设定,省 tokens,省钱!!!(此处原样呈现三个感叹号)
这次的主力开发者特地表示:
任务复杂 prompt 越写越长怎么办?你需要的是一个更长 token 支持的模型吗?并不是!!!你需要的是一个指令遵循更好的模型!!
(不知道感叹号是不是野猫子整体风格的外化体现,笑死)
最!后!
目前为止,量子位稳居最后一大关“决战极限”第二题的榜一,浅浅得瑟一下。
如果你找到消耗更少 tokens 的方法,超越了我们的成绩,记得来评论区告诉我们哟!
我们一定会很快反超回来的(不是)。
最后再重复一下入口:微信小程序搜索“头号做题家”即可直达。