清华大模型人才遭哄抢!盘点5大学术重镇10大产业玩家

  衡宇发自凹非寺

  量子位公众号 QbitAI

  做类 ChatGPT 产品,组中国版 OpenaAI 恐怕是先当下最最人尽皆知的创投野心。

  有人官宣标榜放话,也有 VC 开始把视角投向产学研转换的大模型项目——或许能更有基础一些,其中,清华大学显然处于身负众望的头一梯队。

  量子位独家获悉,背靠清华的大模型研究团队,计算机系教授唐杰牵头的创业公司智谱 AI,身价水涨船高,在几近哄抢的状态中接近完成一轮新融资,估值已超 30 亿元。

  唐杰的学生同样有市无价。其麾下知名弟子杨植麟的 NLP 创业公司循环智能,也被寄予厚望,一切往大模型方向走,国内最头部的 VC,孵化式提供支持。

  唐杰师徒,清华 NLP 力量冰山一角

  唐杰,清华计算机系教授。他刚刚入选 2023 AAAI Fellow,也是 ACM/IEEE Fellow。研究方向包括人工智能、数据挖掘、社交网络、机器学习和知识图谱等,曾获 ACM SIGKDD Test-of-Time Award(十年最佳论文)。

  △唐杰

  这次传闻中被多家 VC 哄抢的智谱 AI,在 2019 年由他和同为清华教授的李涓子创立,由清华大学计算机系知识工程实验室的技术成果转化而来。

  经唐杰手的大模型,都是这几年里大家的“老朋友”:超大规模预训练大模型“悟道”(悟道 2.0 参数规模达到 1.75 万亿);2021 年与阿里达摩院联合发布的中文多模态预训练大模型 M6;已经开源的中英文预训练语言大模型*GLM-130B。

  相同参数规模下,M6 训练能耗仅是 GPT-3 的1%;ChatgGPT 需要 8 张 A100 才能跑起来,而 GLM-130B 仅用 4 张 3090 就能驱动。在大模型赛道上的既有产品和性能实绩,让唐杰团队被 VC 追逐、哄抢不足为奇。

  VC 手中的金橄榄枝,还抛给了唐杰的得意门生杨植麟。

  杨植麟是谁?以年级第一的成绩从清华本科毕业后,他在 NLP 研究全球排名第一的卡内基梅隆大学语言技术研究所(LTI)就读,师从苹果 AI 研究负责人 Ruslan Salakhutdinov 和谷歌首席科学家 William Cohen,4 年即拿下博士学位。

  △杨植麟

  博士期间,杨植麟和图灵奖得主 Yoshua Bengio 合作发布数据集 HotpotQA,又先后以一作身份发表成果 Transformer-XL 和 XLNet——这两篇分别是 ACL 2019 和 NeurIPS 2019 最高引论文之一。现在,他的谷歌学术引用次数突破 16000 次。

  这位 90 后创业者不仅学术履历优秀,在产业界的表现也可圈可点。

  2016 年,杨植麟创立循环智能,公司主要业务是运用 NLP、语音、多模态、大模型等人工智能技术打造“销售科技”方案。与此同时,智谱 AI 和清华研究团队的多个 AI 项目由他主导,华为的“盘古”大模型也是杨植麟团队和华为云联合推出的。

  ChatGPT 引爆狂潮,唐杨师徒二人成了 VC 眼中的香饽饽,但清华大模型 NLP 方向上的人才富矿不止他二人。

  孙茂松、刘知远团队算其中一股中坚力量,两人都来自清华自然语言处理与社会人文计算实验室(THUNLP)。THUNLP 成立于上世纪 70 年代的实验室,牵头人是国内 NLP 研究领域的泰斗黄昌宁,孙茂松是黄的学生,刘知远则是孙的学生。

  △孙茂松

  2021 年底,孙茂松团队发布了机器中文语言能力评测基准“智源指数”(CUGE),以评测和推动中文 NLP 的发展。其他成果不多赘述,但此处不得不提的有三个。一个是 AI 写诗模型“九歌”,训练过程中学习了 80 万首中国古诗;另一个是语言表征模型 ERNIE(和百度文心大模型同名),可与当时任务最优的 BERT 媲美;还有以中文为核心的预训练大模型清源 CPM,这是智源“悟道·文源”的前身。

  另一支赫赫有名的清华系 NLP 队伍,是交互式人工智能(CoAI)课题组教授朱小燕和其学生黄民烈团队,他们先后提出过 SentiLARE、StoryGPT 等预训练模型。

  黄民烈本人不仅参与了“悟道”大模型的开发,还基于大模型和对话系统的学术背景,在前年创办致力于打造“超拟人大模型”的聆心智能。去年 12 月,聆心智能推出首个产品 AI 乌托邦,用户可通过其与定制 AI 角色对话;在去年年底完成数千万元天使+轮融资后(投资方包括智谱 AI),不到一周前,聆心智能又宣布完成 Pre-A 轮融资。

  △黄民烈

  至于不久前从京东卸任,回归学术界担任清华电子工程系教授的周伯文(旗下还有一家公司衔远科技),也在 NLP、人机对话打磨了多年的研究和业界经验。

  国内大模型力量百家争鸣:5 大学术重镇,10 大产业巨头

  清华不是这轮浪潮中唯一的宠儿。随着 AIGC 和类 ChatGPT 产品相关话题日益高涨的热度,国内大模型人才市场好不热闹。

  为此,量子位梳理了百家争鸣的国内产学研界大模型重镇,代表性机构和代表性人物,共计 5 支学术界团队和 10 大产业界力量,排名不分先后。当然极有可能挂一漏万,欢迎在评论区中补充。

  首先是 5 支学术界团队:

  01:复旦邱锡鹏教授团队

  不鸣则已,复旦大学教授邱锡鹏带领的 NLP 团队没有丝毫预告,猛然在中国激起类 ChatGPT 产品第一朵浪花。

  产品名称 MOSS,致敬《流浪地球2》里拥有自我意识的 AI,参数量比 ChatGPT 小了一个数量级,在训练方式上,直接选择和其他 AI 模型进行对话。MOSS 即将面向公众进行内测,还要在 3 月马不停蹄开源代码。

  据公开资料,邱锡鹏是复旦大学理学学士和博士,研究方向为中文 NLP、开源 NLP 系统、可信 NLP 技术、对话系统等,共发表 CCF-A/B类论文 70 余篇,并主持开发了开源 NLP 工具 FudanNLP 、FastNLP。他与中国计算机学会自然语言处理专委会副主任、教授黄萱菁都来自复旦大学 NLP 实验室,二人均在复旦大学取得学士和博士学位。

  黄萱菁的研究领域为 NLP、文本检索、云计算,复旦博士毕业后留校任教。2008 年前后,她以访问学者身份前往 MIT,现在是复旦大学 AI、NLP 学科方向带头人。曾入选入选“人工智能全球女性”“AI 2000 人工智能全球最具影响力提名学者”及“福布斯中国 2020 科技女性榜”。

  02:哈尔滨工业大学智能技术与 NLP 研究室

  哈工大智能技术与自然语言处理研究室(ITNLP Lab)自上世纪 80 年代初,就开始从事 NLP 研究,代表性成果是提出了汉字语句输入的思想,并实现了国内外第一个语句级汉字键盘输入系统。周明、王海峰、张民、荀恩东都出自哈工大 NLP 一脉。

  教授王晓龙是实验室负责人。王晓龙硕士期间就读于天津大学,并在哈工大拿到计算机应用博士学位,名为 insun 的拼音输入法就是他的研究成果。实验室教师还包括博士刘秉权、博士刘远超 、博士孙承杰等教授。

  刘秉权,本硕博均就读于哈工大计算机专业,现为智能技术与自然语言处理研究室副主任,中国计算机学会高级会员、CCF 中文信息技术专委会委员,作为主要研制人参加了“微软拼音输入法”(与微软合作)和“手机操作系统汉字智能输入”(与日本富士通合作)项目。

  刘远超主要研究兴趣在智能信息处理、自然语言处理与理解、数据挖掘等领域,多次担任 ACL、EMNLP、COLING、NIPS 等 CCF 人工智能顶级会议及等学术刊物的审稿专家。

  孙承杰在哈工大先后取得硕博研究生学位后,2009 年起在留校任教,主要研究方向为 NLP、信息抽取、信息推荐、文本挖掘和机器学习,承担和参加多项国家自然科学基金项目和国家“863”项目。

  03:清华 AIR

  清华 AIR,全称清华大学智能产业研究院,于 2020 年由多媒体及 AI 领域的世界级科学家张亚勤创建,张亚勤本人现担任清华 AIR 院长,同时也是清华大学智能科学讲席教授,中国工程院院士。

  张亚勤本硕毕业于中国科学技术大学,在华盛顿大学取得博士学位,后当选美国艺术与科学院院士,澳州国家工程院院士,IEEE 院士。他曾在微软公司工作 16 年,1999 年和李开复博士等共同创立微软中国研究院(微软亚洲研究院前身)并担任第二任院长。又于 2014 年 9 月加盟百度公司担任总裁。

  △张亚勤

  清华 AIR 还聚集了刘洋、马维英、聂再清、刘菁菁等 NLP 方向的 AI 大牛。

  刘洋是 AIR 执行院长,主要研究方向是 NLP。武汉大学本科毕业后,刘洋在中国科学院计算技术研究所获博士学位,曾担任 ACL 亚太分会创始执委兼秘书长、Computational Linguistics 编委。2010 年,他在 NLP 顶会计算语言学上发表国内第一篇长文,并在 ACL 上成为国内第一个做 tutorial 学者。

  马维英,IEEE Fellow,博士毕业于美国加州大学圣芭芭拉分校,AIR 惠妍讲席教授、首席科学家,他的研究方向包括人工智能的几个核心领域,如大数据挖掘、ML、自然语言理解与生成、CV 等。他拥有 160 多项技术专利,此前曾任微软亚洲研究院常务副院长、字节跳动副总裁兼 AI Lab 主任。

  另一位 AIR 首席研究员聂再清本硕毕业于清华大学计算机科学与技术系,博士时期在美国亚利桑那州立大学师从美国人工智能学会前主席 Subbarao Kambhampati。2004 年起,在微软亚洲研究院历任副研究员/主管/高级研究员、首席研究员;2017 年至 2020 年,在阿里担任天猫精灵首席科学家、达摩院 AI Labs 北京研发中心负责人。

  刘菁菁同样是 AIR 首席研究员,拥有 MIT 计算机科学博士、剑桥大学 MBA 学位,曾任美国微软资深首席研究部门经理,带领科研团队在视觉加语言多模态机器学习,自然语言处理等人工智能领域开展科学研究。

  04:西湖大学 NLP 实验室

  西湖大学 NLP 实验室团队核心成员有博士张岳、蓝振忠等人。

  张岳本科毕业于清华大学计算机专业,硕士、博士期间均就读于牛津大学,2010 年 3 月-2012 年 6 月在剑桥大学计算机科学专业从事博士后研究,现为西湖大学长聘副教授,受邀编写了剑桥大学的 NLP 教材。根据统计,2012 年-2020 年期间,张岳在 NLP 领域的顶会发表数量是全球第三。

  △张岳 NLP 课程可在B站观看

  蓝振忠是中山大学校友,博士毕业于卡内基梅隆大学(CMU)计算机学院,多次担任 ACM Multimedia, CVPR, ECCV, ICCV 等国际顶会的论文评审专家。加入西湖大学前,他在谷歌 AI 工作;加盟西湖大学后,蓝振忠组建了一支 30 多人的团队,正在尝试整合多种 AI 技术,构建虚拟心理咨询师。

  05:IDEA 研究院

  IDEA 研究院,全称粤港澳大湾区数字经济研究院,创立人沈向洋。沈向洋是视频检索领域的开创者,也是 ACM 和 IEEE 院士。他博士毕业于卡内基梅隆大学,是图灵奖得主 Raj Reddy 的学生,与李开复、洪小文同门参与创建微软亚洲研究院(MSRA),曾担任微软公司全球执行副总裁。

  IDEA 研究院下大模型负责人张家兴同样出身 MSRA。在获得北京大学博士学位后,张家兴先后就职于百度、微软、阿里巴巴,曾任微软亚洲研究院研究员、360 数科首席科学家,2021 年 6 月加入 IDEA。去年,张家兴带领团队推出了国内第一个以中文为主的 AI 绘画模型“太乙”,被称为中文版 Stable Diffusio。据透露,“太乙”训练数据量超过了 1 亿中文图文对。

  △太乙根据提示次“小桥流水人家,水彩”生成的画作

  接下来聊聊 10 家极具代表性的产业界力量:

  01:百度

  提起百度的 NLP 技术,最被人熟知的是文心大模型。百度日前已经官宣要在 3 月把“文心·一言”(ERNIE Bot)向公众开放,它就是基于文心大模型技术推出的生成式对话产品。

  2022 年,DALLE-2、Stable Diffusion 引领的 AI 绘画狂潮中,百度顺势推出同以文心大模型为底座的 AI 艺术和创意辅助平台“文心 · 一格”。

  百度这方面坐镇和带队的,自然是 NLP 领域华人第一人——王海峰。百度 CTO 王海峰毕业于哈尔滨工业大学,博士学历,博士毕业后王海峰加入微软亚洲研究院,进行自然语言处理方向的研究,之后历任 isilk.com 研究科学家,东芝(中国)研究开发中心副所长兼研究部部长等职位。2010 年 1 月加入百度,从 NLP 应用开始打造了百度 NLP 核心团队。

  核心团队成员之一有 2006 年浙江大学毕业后加入,现任百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜,她整体负责百度 AI 技术平台和智能云 AI 产品,百度产业级深度学习开源开放平台飞桨正是她负责。

  吴华,中科院自动化研究所博士毕业,现任百度技术委员会主席,负责百度翻译项目。她曾担任自然语言处理领域国际会议 ACL 2014 年的程序委员会主席,是中国本土企业首位 ACL 程序委员会主席。

  马艳军,山东大学、清华大学校友,博士毕业于爱尔兰都柏林城市大学,百度深度学习技术平台高级总监。曾任《Machine Translation》杂志编委,并多次担任顶级国际会议的 AreaChair 等职务,发表论文 20 余篇。小度机器人正是马艳军基于深度问答技术在 2013 年孵化。

  02:阿里达摩院

  阿里达摩院机器智能技术实验室下属的语言技术实验室,是阿里巴巴负责 NLP 技术研发的核心团队。

  现任语言技术实验室负责人黄非,从 ACM 杰出科学家司罗手中接过重担。加入达摩院之前,他在卡内基梅隆大学攻读博士,之后 NLP 研究工作在 IBM Watson 和 Facebook 开展,在 NLP 和 AI 的顶会及期刊上发表文章 40 多篇;另一位团队负责人邴立东和司罗、黄非同为卡内基梅隆大学校友,曾多次担任 ACL、EMNLP 等会议的领域主席。

  前文提到的 M6 是阿里达摩院推出的大模型之一,同样为人所熟知的还有基于统一学习范式 OFA 等底层技术打造的阿里通义大模型,之所以为“通义”,是因它具备搞定多种任务的“大一统”能力。

  至于达摩院被曝要推出的类 ChatGPT 产品,就是在阿里通义大模型体系的基础上融合升级。

  △阿里内测中的达摩院版 ChatGPT 提前曝光

  03:字节跳动

  字节跳动 AI Lab 成立于 2016 年,旨在为字节跳动内容平台提供算法和技术支持,研究领域主要涉及 NLP、数据挖掘、ML、语音与音频等,推出的 NLP 相关产品有为字节跳动所有产品提供翻译服务的 Byte Translator,以及涉猎体育、金融、时事的新闻写作机器人 Xiaomingbot。

  字节跳动 AI Lab 团队总监之一李航,同时当选三大国际顶会(ACL,IEEE,ACM)Fellow。他师出日本,硕士毕业于日本京都大学电气工程系,后在东京大学取得计算机科学博士学位,主要研究方向包括信息检索、NLP 等,曾在微软、华为先后任职。

  本月初,字节跳动 AI 实验室被曝有开展类 ChatGPT 产品和 AIGC 相关研发。最新消息爆料,字节跳动正在布局大模型,在语言和图像两种模态上发力。其中,语言大模型团队由字节搜索部门领导,目前规模在十数人左右;图片大模型团队由智能创作团队牵头。

  04:小冰

  2020 年,小冰公司从微软总部拆分,独立运营。其拥有的小冰框架以 NLP 为基础,是目前是全球承载交互量最大的完备 AI 框架之一。

  本周,小冰公司的“小冰链”开放了小范围公测,不同于 ChatGPT,小冰链将其思考过程完整、透明地呈现在用户面前,而且还能经过思考实施(某种)行动。

  △小冰链的文字写作能力

  公司 CEO 李笛毕业于清华大学,前微软(亚洲)互联网工程院副院长,微软时期创立了微软 AI 情感计算框架,现在他领导全球团队,负责人工智能小冰框架系统的技术研发、产品革新及商业落地

  05:华为

  2021 年,华为云发布“盘古”大模型,这是业界首个千亿参数中文语言预训练模型,预训练阶段学习了 40TB 中文文本数据,接近人类中文理解能力。

  华为这方面的核心人物,当属国际欧亚科学院院士、IEEE Fellow、华为云人工智能领域首席科学家田奇。田奇本科毕业于清华大学电子工程系,硕士毕业于美国德雷塞尔大学,后赴美国伊利诺伊大学香槟分校学习获博士学位。田奇研究方向本为 CV,但近几年也转向 NLP 领域。

  △田奇

  06:腾讯

  腾讯麾下有“混元”AI 大模型(HunYuan)。去年年底,腾讯 HunYuan 进一步推出国内首个低成本、可落地的 NLP 万亿大模型,并再次登顶自然语言理解任务榜单 CLUE。

  HunYuan 是业界首个可在工业界海量业务场景直接落地应用的万亿 NLP 大模型,最快用 256 张卡,1 天内就能训练完成,成本直接降至原来的1/8。

  △混元 AI 大模型支持的对话应用案例

  俞栋是腾讯 AI Lab 副主任,同时当选 ACM/IEEE/ISCA 三大顶会 Fellow,主要研究方向是 NLP 与语音识别。浙大电子工程学本科毕业后,俞栋在美国印第安纳大学计算机系和中国科学院自动化所模式识别与智能控制拿下两个硕士学位,最后在美国爱达荷大学计算机完成博士学业。加入腾讯之前,俞栋是微软研究院首席研究员。

  07:京东

  本月初,京东云宣布,旗下言犀人工智能应用平台将整合过往产业实践和技术积累,推出产业版 ChatGPT 智能人机对话平台,预计参数量达千亿级。

  京东集团副总裁、IEEE Fellow 何晓冬表示,京东 ChatGPT 领域拥有丰富的场景和高质量的数据,京东云言犀每天就能和用户进行 1000 万次交互。何晓冬是京东深度学习及语音和语言实验室的负责人,本科毕业于清华大学后,何晓冬在中国科学院取得硕士学位,后又至美国密苏里大学哥伦比亚分校攻读博士,研究主要集中在 DL、NLP、语音识别等领域。

  08:科大讯飞

  科大讯飞是国内 NLP 行业龙头。ChatGPT 爆火后,科大讯飞在投资者互动平台表示,在 ChatGPT 主要涉及的 NLP 相关技术和方向上,公司具备长期深厚的积累。

  科大讯飞公开资料披露,2022 年 12 月,科大讯飞已经进一步启动生成式预训练大模型任务攻关,类 ChatGPT 技术将在今年 5 月落地公司 AI 学习机产品中。

  科大讯飞副总裁、研究院执行院长是刘聪,于 2001 年进入中国科学技术大学攻读电子信息工程专业。加入讯飞语音实验室后,开始了在语音识别领域的研究。现在,他同时担任语音及语言信息处理国家工程研究中心副主任。

  现任科大讯飞 AI 研究院副院长刘权,博士毕业于中国科学技术大学电子工程与信息科学系、语音及语言信息处理国家工程实验室,主要研究领域是 NLP,2020 年至 2021 年,刘权带领团队获得 NLP 领域 5 个国际权威评测冠军,曾任国际常识知识推理会议 Commonsense 2017 学术委员会委员。

  09:澜舟科技

  澜舟科技创始人周明是闻名世界的 NLP 专家,先后就读于重庆大学、哈尔滨工业大学和清华大学,并在清华大学担任过副教授。创业前,周明长期在微软亚洲研究院担任 NLP 组的负责人、微软亚研副院长。周明在 NLP 领域发表的文章数量居世界前列,2012 年至 2020 年期间,周明在 NLP 领域顶会发表的论文数量居全球第一。

  澜舟科技给予 Transformer 的“孟子”大模型,走轻量化路线,仅包含 10 亿参数量,可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务。

  △孟子大模型对图片内容的描述

  上周,澜舟刚刚宣布与中文在线合作,要基于专用大模型开发一套预训练模型技术的文学创作辅助算法。

  10:浪潮信息

  去年年中,浪潮信息推出了 4 个技能大模型(SkillModel),分别为对话模型“源晓问”、问答模型“源晓搜”、翻译模型“源晓译”、古文模型“源晓文”,它们 4 个都基于“源 1.0”大模型生成。“源 1.0”是浪潮信息在 2021 年发布的巨量中文语言模型,参数量高达 2457 亿。

  △浪潮“源”生成的新闻文本

  浪潮信息在互动平台表示,公司在 AIGC 已从算力、算法和应用三个方面进行布局和长期研发投入。浪潮人工智能研究院首席研究员是吴韶华,他同时担任浪潮信息 AI 软件研发总监。他带领的团队除了推出“源 1.0”,还研发了深度学习框架 Caffe-MPI、人工智能开发服务平台 AI Station。

  ChatGPT 珠玉在前,复旦 MOSS 一声不吭的出现,在国内掀起了更高一浪。

  产学研三方都摩拳擦掌、蓄力待搏,在技术这块基石之上,能够垒起坚固高墙的人才成为了另一个必争之地,可以说,伴随着类 ChatGPT 产品在国内的推进,关于大模型人才的抢夺和竞争游戏,才刚刚开始。