科大讯飞被曝加紧开发中国版ChatGPT,5月6日发布

  杨净萧箫发自凹非寺

  量子位公众号 QbitAI

  ChatGPT 火热,国内玩家接连爆出加紧开发中国版 ChatGPT 的消息。

  现在又最新获悉:科大讯飞也加入此列中。

  并且发布就会是直接落地场景的产品,具体时间也已经确定:5 月 6 日。

  这是 ChatGPT 火得一塌糊涂之下,最快给出具体时间的国产玩家。

  更早之前,一众互联网玩家包括百度 360 阿里网易京东官宣入局之际,关于谁能打造中国版 ChatGPT 的问题也争得一塌糊涂。

  事实上,自 ChatGPT 上线以来,作为A股 AI 龙头科大讯飞就备受市场关注,一直被基金疯狂调研和热捧。

  据证券时报消息,截至 2022 年四季度末,80 只基金重仓持有科大讯飞 6100 万股,去年四季度基金大幅加仓 1807 万股。

  有着数十年技术产业积累的科大讯飞,也被认为是国内最有希望打造 ChatGPT 的玩家之一。

  但问题是,包括讯飞在内的中国玩家是否真的有希望复刻 ChatGPT?至少从技术维度来看,又应该具备什么样的条件?

  打造中国版 ChatGPT 需要什么条件?

  ChatGPT 的打造,核心绕不过算法、数据、算力三要素。

  算力是支撑背后大语言模型训练的硬件基础;数据,影响模型能力强弱甚至生成质量的关键;算法则包括模型架构和优化方法,决定着模型的核心技能。

  如果说前两者算力和数据是资本资源积累,毕竟训练一个 1750 亿参数的 GPT-3 就得花费 460 万美元;那么算法是 ChatGPT 区别于其他的独到之处。

  作为一个对话式 AI,ChatGPT 所具备的技能包括多语言文本生成、具备大量世界知识、零样本生成、代码理解和生成、对话能力等。

  更概括地来说,其强大之处在于同时具备知识、推理和沟通能力——

  也是实现认知智能必备的几项能力。

  首先是知识能力。为了让 ChatGPT 既具备应用数据能力、又能生成符合人类要求的答案,要求它能具备大量世界知识和基础常识,且符合人类输出要求。

  这背后不仅离不开 ChatGPT“底座”大语言模型的参数量和算法架构,更离不开极高的数据质量。

  值得注意的是,ChatGPT 比其他 AI 模型生成质量高的原因,在于它更了解人类的“雷区”,包括回答中立客观、不输出违规内容、不回答认知范围之外的问题等。

  严格来说,这不仅需要各行业通用的高质量数据,而且还需要经过大量数据清洗和人工标注。

  这种方法被命名为基于人类反馈的强化学习(RLHF),需要经过大量各行各业的人工标注,仅凭模型自身无法达到这样的效果。

  随后是推理能力。这包括理解并生成代码等技能,让模型能像人一样,一步步思考并推算目标结果。

  这里面考验的又不仅仅是代码和语言数据量,同样还强调模型的零样本生成能力和复杂推理能力。

  具体而言,零样本生成指的是模型完成没见过的新任务的能力,而代码生成更是考验模型根据任务目标,一步步推理生成最终结果的能力。

  最后便是沟通能力,即多语言文本生成、对话能力等。

  ChatGPT 之所以在沟通能力上有所进步,是因为它能学会基于之前的对话内容生成新输出,而并非局限于当前对话中、导致无法理解代词或暗含前文信息点的词。

  这背后除了要求模型在预训练时的语言文本具有多样性,还必须增加如指令学习在内的任务,确保模型能更好地听懂人类对话中的要求,并准确合理地实现。

  综上来看,ChatGPT 在各方面都提出了不低的要求,国内玩家要想打造这样的模型,就必须在 NLP 乃至认知智能相关的算法上,实现深厚积淀。

  国内玩家有希望吗?

  既然如此,那么国内的玩家来打造 ChatGPT 有希望吗?

  从目前已被曝出玩家来看,主要有两类企业想要抢占 ChatGPT 的高地。

  一类是网络搜索领域,这个被认为 ChatGPT 率先颠覆的场景,微软谷歌之争也在此再次打响。而回到国内,搜索引擎的两大巨头都表示对 ChatGPT 的持续关注。

  一边,百度官宣即将上线文心一言;另一边,周鸿祎也肯定表示:360 不会放弃对 ChatGPT 这门技术的研究和跟踪。

  另一类则是其他专业领域的玩家,比如聚焦于电商物流的阿里京东、文娱场景下的腾讯网易,还有像教育医疗场景深耕的科大讯飞……

  不妨就从这两类玩家入手,以百度和科大讯飞为例,来看看是否真的有希望。他们一个是搜索引擎代表,一个所代表的场景有广泛的社会价值。

  图注:图源科大讯飞,智医助理电话机器人

  如前所言,想要打造 ChatGPT,需要算法、数据和算力三个方面。

  首先从算法上,目前国内很多公司都有 NLP 技术和预训练语言模型的研究和开发。百度有文心大模型,而 AI 龙头科大讯飞自然更是在这两方面,有诸多研究积累——

  在 NLP 所在的认知智能领域,科大讯飞主导承建了认知智能全国重点实验室(科技部首批 20 家标杆全国重点实验室之一),多年来始终保持关键核心技术处于世界前沿水平,比如在去年就获得 CommonsenseQA 2.0、OpenBookQA 等 12 项认知智能领域权威评测的第一;

  而在预训练语言模型上,还面向认知智能领域陆续开源了 6 大类、超过 40 个通用领域的系列中文预训练语言模型,成为业界最广泛流行的中文预训练模型系列之一,在 Github 获 13346 颗星,位列中文预训练模型星标数第一。

  从这个维度上看,中国玩家是有希望造出一个类 ChatGPT 模型。

  但要造出一个高质量的语言模型,需要大量的数据和计算资源。

  数据方面,诸多现象表明,数据多少是决定模型智能与否的关键。一度惊艳众人的 GPT-3 就有 1750 亿参数,而上一版本 GPT-2 只有 15 亿参数。

  百度 360 这样的搜索引擎玩家,有着天然的通用数据来源。不过之后的数据清洗和人工标注也是难度不小的工程。

  而像科大讯飞,虽然没有像前两者有通用数据上的优势。但在教育、医疗这种高壁垒、高门槛的领域有规模化的专业数据积累,并且有在讯飞输入法、讯飞开放平台、消费办公类产品带来的大量数据,

  待到 ChatGPT 行业落地时,可以迅速占领市场高地。

  再来看计算资源方面,实际上看的是愿意投入的成本有多少。

  OpenAI 背靠微软这样一头算力奶牛——拥有 28.5 万个 CPU 核心、1 万个英伟达 V100 GPU,光是训练一个 GPT-3,费用就高达 460 万美元。

  国内像百度、科大讯飞这类数十年的 AI 玩家,自然有诸多算力和资金的积累。而且也有生态链上的合作伙伴,想必也会是水到渠成的。

  巧合的是,讯飞在今年年初提出了要开启高质量发展——将在未来 5 年实现 500 亿根据地业务营收、200 亿毛利,可提供物质保障;另一方面,还有中国玩家绕不开的国产替代的考量,近年来讯飞一直推进在算力和算法上的自主可控。

  据官方数据,目前研发训练服务器已经开始进入国产化, 切换之后效率有的是原来平台的 70-80%,有的效率是超原来平台 100+%。另外在算法上,也启动了推理服务器的国产替代;像部分产品,学习机芯片已经全部切换成国产自主。

  不可否认的是,我们跟 ChatGPT 是有先天的技术差距。但至少从算法、算力和数据这三个基本盘来看,想要打造一个中国版 ChatGPT 也并非没有希望。

  中美在打造 ChatGPT 上的差异

  重新回到事件本身,就在一众中国玩家开始着手打造类 ChatGPT 产品之际,一个绕不开的问题是,中国明明不缺 ChatGPT 技术,为什么不是中国先诞生 ChatGPT?中美之间在打造 ChatGPT 上差异有多大?

  背后原因在此之前也没有进行系统性梳理过。归结起来,主要有三个层面。

  其一,AI 应用落地的行业路线差异。

  ChatGPT 作为 AGI(通用人工智能)技术代表,对于商业化落地而言,本身不是一个“好生意”。

  之所以这么说,是因为在相当长的一段时间内,AGI 的商业前景其实都并不为业内和大多玩家所看好。

  除了前期训练算力和数据投入的大量资金,后期优化和知识更新所需的迭代路线,无法像互联网商业模式创新那样快速变现增长。

  在国内市场大环境中,并不是一个好的选择。相比之下,国内大多数科技厂商更倾向于在垂直专业领域应用 AI 技术,如推出针对不同行业的专业大模型、又例如采用预训练+微调的模式,针对更具体的场景用专业数据去调整差异……

  这并不意味着垂直专业领域的 AI 应用一定比通用 AI 更差,甚至在某些领域上,经过专业数据训练的 AI 表现仍然比 ChatGPT 更好。

  然而 ChatGPT 的成功,意味着通用模型以后也会成为商业化落地的方向之一,甚至覆盖原先一些 AI 技术不高、专业度不够的场景落地应用,如银行客服等。

  其二,中美在 ChatGPT 技术上的差距

  如前所述,中国不缺 ChatGPT 技术。如科大讯飞研究的认知智能中,对于 ChatGPT 具备的自然语言理解、知识推理技术都已有所布局,相关全球基准测试中,成绩均达到了全球领先水平。

  然而,如何将这些模型能力集成升级、达到 ChatGPT 的效果,又如何搜集并产生巨量的高质量通用数据、而非仅仅是某一行业的专业数据,国内外目前依旧存在差距。

  更明确一点来说,存在技术代差。

  360 在最近电话会议中表示:

国内的技术水平目前整体在 GPT2.3 左右。如果基于互联网优势,大家都用中文提问、尤其是国内的问题,可能实际体验能达到 GPT2.5 版本左右。

  但 OpenAI 这边,GPT-4早就已经呼之欲出,中美之间基本已存在一代多的技术差距。

  其三,技术引发的生态差距。

  GPT-3 之后 OpenAI 所有的模型都没有开源,而是提供了 API 调用,并因此养活了美国一大帮创业公司,创造并盘活了整个生态。

  清华大学计算机科学与技术系长聘副教授黄民烈,就曾这样形象地描述 GPT 系列模型的影响力:

这个过程它干了一件事,就是建立起了真实的用户调用和模型迭代之间的飞轮,它非常重视真实世界数据的调用,以及这些数据对模型的迭代。

  相比之下,国内目前更多公司虽然开源了不少大模型,然而这些模型要想达到商业化落地效果,仍旧需要大量数据迭代乃至应用落地,这方面的费用绝非初创公司所能承担。

  事实上,从技术、行业乃至生态差距来看,ChatGPT 依靠的不是短期的角逐,而是一个长线投资行为。

  目前,应用领域可能还集中在搜索引擎上,但随着 ChatGPT 应用潜力被各个领域挖掘出来,最终可能打造国产 ChatGPT 的,还是那些在技术、行业以及有能力构建生态的玩家中,科大讯飞是一个。

  总之,关于全球 ChatGPT 之争,号角已经吹响。关乎 ChatGPT 落地价值探索,国内玩家已经起航。