新智元报道
编辑:Cris
这年头,还有 AI 做不到的事儿吗?
在 AI 科技圈,「中文语言理解」一直是一个难以攻克的问题。因为在全世界所有的语言中——中文的难度系数是最高的。
举例来讲,就下面这句简简单单 20 个字的句子,都绝对能让不少外国人深感崩溃。下雨天,我骑车差点摔倒,好在一把把把把住了。
然而,在最新的中文语言理解领域权威榜单 CLUE 中,腾讯和阿里的 AI 模型却先后超越了人类的成绩!实在让人不禁感慨:这年头,还有什么是 AI 做不了的吗?
最新一期 CLUE 最新排名
CLUE的全称是 Chinese Language Understanding Evaluation,即「中文语言理解测评基准」。
就像英语的 GLUE 和 SuperGLUE,CLUE 是一组评估机器能够像人类一样理解和响应中文文本的任务,上线于 3 年前,也是第一个大规模的中文语言评估基准,旨在推动 NLP 技术的不断进步和突破。
在 CLUE 的官网上,有语料库、排行榜、预训练模型和代表性的数据集等资料可供选择。包括文本相似度、分类、上下文推理、阅读理解在内的17 项测评任务,其介绍在官网上都有很详尽的展示。
今年 11 月 22 日,阿里巴巴的 AI 模型「AliceMind」获得了86. 685的高分,稳居总排行榜首位的同时,也一举打破了由人类(HUMAN)在该系列测试中保持的纪录。
值得一提的是,这也是人工智能在该系列测试中——首次超越人类。
巧合的是,短短 4 天后,腾讯的「混元 AI 大模型」在测试中以86. 918的高分再次刷新了纪录——这甚至比 AliceMind 的成绩还要高0. 233 分。
中国两大互联网巨头你方唱罢我登场,说明人工智能在不同领域和方面都有超越人类的能力。
上周五,阿里云计算部门也在一篇文章中表示,「这标志着中国对 AI 模型的理解,达到了一个新的水平」。
中国的大型科技公司正努力改进他们的自然语言处理 (NLP) 系统,这些系统被用于支持如阿里巴巴的语音激活虚拟助手,腾讯的小微和 AliGenie,以及机器翻译和垃圾邮件检测等其他功能。
阿里巴巴的天猫精灵智能音箱
今年早些时候,由百度研发的 AI 模型「度晓晓」写出的作文,尽管错误地使用了不少互联网俚语和生僻词,但仍在高考得分中高于绝大多数学生。
此外在最新排行榜上,中国智能手机制造商 OPPO 和外卖巨头美团的人工智能模型,也分别排在第四和第五位。
尽管如此,一些研究人员表示:虽然机器在某些语言任务上可以比人类做得更好,但大多数人工智能模型在真正理解语言的复杂性之前,还有很长的路要走。
去年,由美国阿拉巴马州奥本大学和 Adobe 的研究部门联合研究发现,许多在某些理解任务上表现优于人类的 AI,仍无法分辨出单词被随机打乱的句子。
参考资料: