对话多邻国:用好AI大模型后,我们的付费用户暴增超50%|36氪专访

  作者|武静静

  编辑|邓咏仪

  一家线上教育产品公司如何巧用大模型之力获得新增长?多邻国可以称得上是全球市场典型的范本之一。

  从产品来看,你很难感受到这是一家已经成立 13 年的“老公司”——作为一个教育 App,它的用户忠诚得惊人,且还保持着飞速增长。2023 年第四季度,多邻国付费用户达到 660 万,同比增长 57%,付费会员收入约为 1.6 亿美元。

  “公司实现了创纪录的用户参与度和创纪录的订户数量。”Duolingo 首席执行官 Luis von Ahn 称。

  而在国内,多邻国再度火出圈,人们在蹦迪时、喝酒、旅游时都不忘在多邻国每日打卡,在网上纷纷晒出连胜纪录。连多邻国标志性的 logo“小绿鸟”,在社交平台上都已经成为一个搞笑 IP。

  多邻国品牌形象

  学语言,就和打游戏一样轻松——多邻国开创了一种新鲜的教育产品体验,这是其长盛不衰的原因所在。多邻国首席商务官 Bob Meese 告诉 36 氪,他们认为,教育应用的关键就是让用户有学习动机,“我们在产品中融合了各种玩法、奖励系统,让学习变得有趣,从而达成学习目标。”

  多邻国的首席商务官 Bob Meese

  产品爆火的同时,多邻国的业绩也在持续腾飞。从财报表现来看,多邻国的营收连续四个季度均实现了 40% 以上的增长。2024 年第一季度,公司营收达 1.16 亿美元,同比增长 42%。

  这些亮眼的表现背后,大模型也是一位隐藏的大功臣。

  多邻国是最早把大模型技术用在教育应用的科技公司之一。早在 2021 年——ChatGPT 发布前一年,公司就开始和 OpenAI 合作,集成了 GPT-3,开始用 AI 试水教育产品。在 2023 年 GPT-4 发布当天,多邻国就推出一款由 GPT-4 支持的新产品 Duolingo Max,目前仅在部分欧美国家试运营。

  多邻国把大模型融入新产品开发、教学内容生成、产品交互等方方面面。多邻国首席商务官 Bob Meese 告诉 36 氪,“像任何创新工具一样,只要有一个好的操作员,大模型可以为我们的的课程研发团队带来便利、速度和生产力。”

  多邻国的喜人增长和对 AI 技术的应用过程,有什么经验和方法可供创业公司参考?近期,36 氪对话了多邻国的首席商务官 Bob Meese,以及多邻国英语测试全球考生业务负责人王妍,聊了聊他们的思考。

  多邻国英语测试全球考生业务负责人王妍

  以下是对话实录,经 36 氪编辑整理:

  GPT-4 发布后,AI 教学已经能赶上人类老师

  36 氪:在引入生成式 AI 的过程中,多邻国如何安排产品的优先级?会选择先在哪些各个环节和产品上试水?

  Bob Meese: 多邻国学习 App、多邻国英语测试,两者均引入了生成式 AI 技术。

  在与 OpenAI 携手成为首发合作伙伴时,首先,我们利用 AI 打造了类似于聊天机器人交互式体验,这一功能最初被集成到高级订阅服务——Duolingo Max 中。

  Duolingo Max 两大功能为:解释我的回答(Explain My Answer)和角色扮演(Roleplay)。前者会利用 AI 给题目提供具体的解释,由猫头鹰多儿以聊天机器人的形式发送;后者能让学习者和 AI 以场景为中心,进行及时对话。

  除了交互式特性的开发,我们还利用 AI 技术来辅助内容生成。特别针对中级和更高水平学习者的内容,而 AI 可以生成教学内容,极大地提高生产效率。

  王妍:在利用 AI 辅助内容生成方面,我们发现,多语言内容的生成对于学习体验至关重要。而传统上,这些内容由教师创建,借助 AI 大模型能显著加快这一过程。原本需要几十个小时准备的课程,现在仅需几个小时即可完成。

  36 氪: 多邻国英语测试(DET)这款产品目前在中国已经积累了大量用户,它是如何结合大语言模型的?

  王妍:DET 很早就与 OpenAI 展开合作,甚至在 ChatGPT 发布之前。所以最初开始,AI 技术就是核心和基础。我们一直在引领潮流,不是跟随者。

  GPT 模型不仅提高了效率,也确保了测试的公平性和中立性。通过大语言模型,我们能够生成各种题型,并结合内部的质量检测流程,确保题目对全球不同背景的考生都是公平和适宜的。同时也避免了人为出题带来的主观性,试题更全面。

  此外,我们还引入了最新的题型,包含了互动写作(Interactive Writing)等新型互动题型,这些题型都采用了生成式 AI 技术。在互动写作中,考生回答一个问题后,AI 模型会基于答案实时生成下一道题目,提供一种多轮、个性化的测试体验。

  多邻国英语测试(DET)数据

  这种方法不仅能够更深入地测试考生的对话能力,还能在短时间内准确地评估考生是否真正掌握了对话技巧。通过创新题型,测试的质量和效率明显提升。

  36 氪:大模型的泛化能力很强。多邻国除了接入 GPT-4 基础模型之外,是否有做更多额外的工程化处理?

  王妍:即使通用大模型,也需要我们自己在产品上进行定制化优化。

  比如在语言测试产品上,多邻国的内容通过 AI 生成,但教师也会从语言学习的专业维度出发,定义不同语言学习等级所需的场景、难度、词汇量和语法覆盖等;然后再利用 AI 生成符合这些要求的内容;之后,再由教师进行多轮复核。整个过程中,AI 是一个提高效率的工具。

  产品上,我们采用的是一种自适应测试(computer adaptive testing)的技术,这种技术本身与大模型无关,而是一个更为成熟的计算机自适应模型。所以,多邻国英语测试从第一题开始就会根据考生的表现实时调整难度,并据此实时调整后续的考试体验。

  这些技术基础能够让我们更好的用好大模型,也是为什么我们能够在很短的时间内达到传统 3 小时考试的效率和内容覆盖率的原因。

  同时,我们也在不断改进,工程师团队会在模型的校准和使用上进行专业调试,保证 AI 生成效果更加精确和高效。

  36 氪:多邻国是什么时候接入 GPT 的?

  Bob Meese:利用 GPT 进行内容生成开始于 2021 年,所以很早,多邻国就在探索生成式 AI,并和 OpenAI 团队接触。

  但早期我们并没有全面接入 GPT-3,因为当时,大模型性能尚未达到可与人类导师相媲美的水平,所以,实用性非常有限。而随着 GPT-4 的出现,AI 的互动体验已经可以和人类导师相提并论。

  2023 年,在 ChatGPT 发布前六个月,我们就看到了它,并且拥有特殊的使用权限。当时,我们就已和 OpenAI 合作,开展一个初期项目,探索让 AI 用类似于人类导师的方式教学。

  36 氪: 最早看到 GPT 的时候,最触动你们和打动你们的点是什么,你们认为可以给产品带来哪些颠覆性的改变?

  Bob Meese: 作为一家技术驱动的公司,多邻国的创始团队坚信,为了覆盖更广泛的受众,利用 AI 进行教学至关重要。但目前人类导师在教学效果上仍超越了技术。所以,早期,多邻国主要依赖真人教师。

  然而,接触 GPT-4 后,我们就迅速将项目重心转移到了新的大模型上。当时,我们的流程是,先由真人导师设计教学脚本,然后 GPT-4 将脚本翻译成其他语言,并且根据给定的脚本生成内容。

  举个例子,如果脚本设计中,主角是一个有梦想的年轻女孩,GPT-4 能够基于此创造出一个完整的故事。此外,对语言学习者来说,将语言简化到 A1 水平非常重要,GPT-4 也能立即做到这一点。

  此外,多邻国也非常注重语言学习的趣味性,所以,我们还要求 AI 生成的内容是幽默、有趣的。而 GPT-4 能快速适应我们的需求,这是一个令人激动的突破。

  大模型只是工具,产品和交互设计更重要

  36 氪:今年生成式 AI 在语音生成和视频生成领域也很多,也有很多人开始直接用访问 ChatGPT 等大语言模型作为语言学习工具,最新的 ChatGPT 也开放了语音功能。随着模型能力越来越强,你们是否会有这种被大模型替代的担忧?

  Bob Meese:我们的关注点是如何更好的激发学习者的动力,也正因如此,多邻国的游戏化教学方法收到很多用户的喜欢和认可。

  现阶段,虽然已经在用 AI 升级产品,但我们的产品主线依然围绕提升趣味性和吸引力进行。

  和技术公司相比,我们认为,OpenAI 等大模型平台不会成为竞争者,他们正朝着成为通用技术平台的方向发展,目标是实现通用人工智能(AGI),所以并不会直接与我们竞争。

  36 氪: 大模型降低了新的公司构建 AI 教育产品的成本,面对一些新进入者,多邻国的优势是什么?

  Bob Meese:会有其他公司利用 OpenAI 的技术来提供类似的服务,但这需要考虑到成本。任何使用 OpenAI 技术的公司,都需要付费。问题是,他们是否能够在承担这些费用的同时,还提供免费服务?但我们可以做到免费。

  多邻国最初就以完全免费方式服务用户。所以,与 OpenAI 合作时,尽管带来了额外的成本,但我们的选择是,将 OpenAI 的功能集成到高级订阅服务中。

  整体上,多邻国的商业模式运转非常好,且已经在盈利,并且能够提供包括基础免费服务在内的多层级服务。对于新公司而言,要从零开始建立这样的业务模式和用户基础是更具挑战性的。

  更重要的是,多邻国的产品与常规的教育软件截然不同,它更像是一款游戏。我们的创始团队对游戏产品有深刻的理解,产品采用了大量游戏化元素,使得学习过程更加引人入胜。这让我们在教育应用领域中独树一帜。

  所以,我们的增长核心是依靠产品本身的吸引力,而非仅仅依赖于教师引导或打卡机制。这也与许多教育应用不同。

  多邻国的用户留存率介于传统教育应用和游戏之间,我们的日活跃用户(DAU)数量是其他教育应用的几十倍。内核就是我们借鉴了游戏公司的游戏化机制,通过数千次的A/B测试不断优化,使学习变得更加有趣。

  所以,在游戏化、习惯养成以及创造有趣学习体验方面的专业知识和经验,是我们的核心竞争优势。

  品牌也是我们的优势之一。目前,多邻国已经建立了强大的品牌认知度,口碑传播是我们知名度提升的重要途径。随着技术的演进和市场的变化,这些优势将为我们未来的发展提供巨大的增长机会。

  36 氪: 多邻国如何从创立到现在把游戏化作为产品的第一性原理实践到底的?

  Bob Meese: 作为一家专注于语言学习应用的公司,我们的核心业围绕三点:学习、用户增长和变现。

  我们投入了大量资源在最核心的部分——学习上。同时,也非常注重用户增长,特别是在游戏化方面。我们的用户增长策略以其连胜纪录(streak)功能而闻名,有的用户已经连续使用超过 4000 天,这成为了我们产品的核心特征。

  我们认为,教育产品中,用户的学习动机是关键,我们与游戏设计师的理念一致,以促进用户增长和学习为目标。其中,游戏设计既包含内在元素,比如游戏玩法本身,也包含外在元素,如奖励系统,要确保这些元素与学习目标保持一致,此外,也需要关注游戏化与用户学习语言目标的一致性,培养用户的每日学习习惯。

  产品设计上,我们注重简洁性。我之前在游戏行业,知道游戏设计可能会变得复杂,但我认为,游戏机制过于复杂,会削弱学习体验,因此,我们会避免过度复杂的设计,并持续迭代我们的产品,确保它既有趣又能促进学习。

  36 氪: 在使用大语言模型的过程中,我们如何解决机器幻觉问题,避免它影响内容质量?

  Bob Meese: 通过精心的产品设计能够显著降低产品中 AI 模型产生幻觉带来的风险。

  比如,把产品会话设计的短一点,专注于具体的交互场景。在角色扮演环节,用户会有一个明确的目标和 AI 互动。我们设定了明确的情节和转折点,避免了完全开放式的对话,从而在一定程度上控制了体验,并限制了单次体验的时间,通常几分钟之后就会重置。

  此外,多邻国对 AI 可能产生的幻觉效应已经建立了相应的防护措施。AI 的优势在于其能够灵活应对各种响应,但我们也会对不适当的内容进行限制,确保全年龄段用户都能安全使用。也会过滤掉任何不当语言,确保它们不会出现在用户体验中。

  我们的目标是让用户在短时间内获得高效且愉悦的学习体验。每次交互结束后,用户可以重新开始,享受一个全新的学习过程。通过这种方式,我们能够利用 AI 提供个性化的学习体验,同时确保内容的质量。

  王妍:多邻国产品的背后,采用的是一种结合人类智慧与机器辅助的模式。这种模式的核心在于精心设计的学习体验,而不是简单的人机对话。正如 Bob 所强调的,我们的产品设计非常注重场景化和设计性,我们不会让学习者与 AI 进行纯粹的开放式交互,因为这不仅涉及到 AI 可能产生幻觉的风险,更关乎用户体验。

  大多数学习者更喜欢被动接收而非主动创造,希望获得一个为自己量身定制的学习体验。所以,产品设计中,我们的每个课程都像是预先包装好的,看起来是对话形式,但实际上已经根据学习者的水平和能力,精心设计了对话内容和流程。比如一个故事情节的突然转折,并不是 AI 自发生成的,而是产品设计的一部分。

  我们很少让学习者随意与 AI 模型进行交互,这种体验往往并不理想。相反,我们认为,产品的精心打磨比底层技术更为重要。就像几十年前人们就可以通过电视或收音机学习英语,但这种方式并不受欢迎。现代的产品之所以受到喜爱,是因为它们能够将概念分解并使之更加有趣和易于理解。我们的目标是通过精心设计的学习体验,提升学习效率并激发学习者的兴趣。