多模态能力全球TOP3,来自中国从容大模型

  白交发自凹非寺

  量子位公众号 QbitAI

  国产多模态大模型的头号交椅,再次易主——

  来自云从科技的从容大模型,登上 OpenCompass 权威榜单,仅次于 GPT-4o、Claude3.5-Sonnet,位居全球第三。

  没有听错,就是 AI1.0 四小龙最年轻那个,科创板 AI 平台第一股。

  国产大模型百花齐放之际,云从大模型始终显得低调很多。

  结果现在不鸣则已,一鸣惊人,一举交出这样一个瞩目的答卷。

  来看看多模态新擂主的实力如何。

  多模态新擂主:从容大模型

  来自 OpenCompass 多模态榜单最新评测结果显示:

  从容大模型在该体系中平均得分为 65.5,超越了谷歌的 Gemini-1.5-Pro 和 GPT-4v,仅次于 GPT-4o(69.9)和 Claude3.5-Sonnet(67.9),位居全球第三。

  而在国内市场,该成绩也超过了 InternVL-Chat(61.7)和 GLM-4V(60.8),排名首位。

  OpenCompass 大模型开放评测体系是上海 AI Lab 的完整开源可复现的评测框架。

  其多模态评测方面采用了 8 个具有代表性的数据集,主打一个全范围、多视角、客观量化。

  评估维度覆盖目标检测、文字识别、动作识别、图像理解和关系推理、艺术与设计、商业、科学、健康与医学、人文与社会科学、技术与工程、数学推理等多个方面。

  结果此次测评中,从容大模型在 6 个数据集上表现优异,位列全国第一,包括 MMBench、MMStar、MathVista、HallusionBench、AI2D、OCRBench。

  尤其在 OCRBench 测试集上以取得全球最高的 827 分(总分为 1000 分),且高于第二名 GLM-4v13 分。

  这意味着,从容大模型在文本识别、以文本为中心的视觉问答、面向文档的视觉问答、关键信息提取等任务场景下表现优异。

  事实上,这也不是从容大模型第一次在全球大模型竞技场中霸榜。

  在此之前,它已在视觉、跨模态领域 10 次刷新世界纪录。综合性能经第三方 SuperClue、C-Eval 等综合评测,位列全球前五。

  云从科技视觉大模型在 Benchmark COCO 上,从微软研究院(MSR)、上海 AI Lab、智源 AI 研究院等多家知名企业与研究机构脱颖而出,刷新了世界纪录;

  去年 11 月,SuperClue 测试集中,从容大模型综合成绩在国内大模型排名第一,仅次于 GPT-4 和 GPT-4 Turbo。

  特别是 OPEN 测试模块中表现抢眼,包括角色扮演、上下文对话、生成创作等多项能力实现 SOTA。

  云从的 AI 大模型布局和落地

  新擂主云从,声势低调,但大模型和 AI 进展生猛,动作频频。

  以从容大模型为代表,来看看云从在 AI 大模型布局和落地上面交出的是一个什么样的答卷。

  去年 5 月,行业内千呼万唤之中,从容大模型终于亮相。当时起步不算晚,但早早释放出强烈的行业应用信号。

  当时除了基座大模型外,云从还演示了多场景下行业大模型,像政务、金融、制造、教育、游戏等。

  与此同时,发布会现场还建立了行业生态联盟,与中检、神州信息、佳都、深圳报业、游族、今世缘、艾登等多家公司签约。

  同一个月,云从西部智算中心正式运营,标志着从容大模型生产线正式投产。

  有基座模型、有应用生态、有智算中心…种种砝码加注,可以看到,从容大模型起跑线不低,而且加速度明显。

  这在之后一年多的迭代与落地之中也得以验证,从容大模型在模型、应用以及生态层面全方位发力。

  模型层,从容大模型共迭代两次,有 1.5 以及 2.0 版本。目前整个从容大模型系列,包含语言、视觉、语音、代码生成、图像生成等大模型。

  其技术能力,频频被学术顶会认可。

  像云从联合上海交大、中山大学等团队提出一种视觉模型自监督学习方法 PointCMP,仅需过往1% 的数据量或者无需真实数据便可以达到相同的效果,最终成功被 CVPR 2023 接收。

  此外其视觉大模型还在 ICCV2023 细粒度行为检测挑战赛斩获冠军。

  还有像 All-in-One 大一统,这个时下最前沿的大模型学术思路,早在去年 8 月,云从就已经有所尝试。

  他们在多模态领域唯一 CCF A 类顶级学术会议 ACM MM 上提出视觉-语言跟踪大一统模型 All-in-One,最终在跨模态领域(TNL2K, LaSOT, LaSOTExt, WebUAV-3M)刷新 4 项世界纪录。

  底座大模型能力持续提升,带动着行业基础大模型的迭代升级以及应用落地。

  比如在交通领域,他们的行人基础大模型在 PA-100K、RAP V2、PETA、HICO-DET 四个数据集上从阿里巴巴、日立等多家知名高校、企业机构脱颖而出,刷新了世界纪录。

  还有消费领域,他们的商品基础大模型在 MUGE、Product1M 两个规模最大的开源中文多模态商品检索数据集更是刷新了世界纪录,同场竞技者还包括百度、快手、京东、OPPO 等玩家。

  在应用层,过去一年中,他们软硬件皆有布局,且在金融、安防、政务、交通、能源、教育、医疗、港口、文娱等行业领域都有落地。

  他们推出数字人云月,除了高度拟人化呈现,它在动作、形象和智力层面都接近真人水平。

  而为了更大范围落地,他们还打造了数字人服务平台,端到端实现造人、育人、用人等一站式构建数字人操作。

  在个人办公领域,他们推出了智能硬件——

  内置大模型的 AI 鼠标,结合本地个人知识库,支持语音输入、PPT 生成、智能问答、智能写作等功能。

  只需一个「AI」键,每个人都拥有自己 AI 助手。

  关于 AI 大模型的应用和落地,除了自身技术融合,也同样离不开生态层面的支撑。

  他们很早就同华为昇腾合作,推出从容大模型训推一体机,依托于国产算力,为企业提供从模型训练到推理应用的一体化解决方案。

  解决方案内置了大模型推理引擎、调优工具和算子加速库,支撑客户开箱即用,无需进行二次硬件活配即可让客户能够直接使用大型预训练模型,从而实现本地化部署。

  他们还联合推出了变电智巡大模型,可替代人类完成对电力设备的自动巡检,为能源行业的数字化转型提供了大模型应用范式。

  而此前建成的西部智算中心,目前已达到 1200P 算力资源,可以满足 10 个百亿级或2-5 个千亿级基础大模型同时进行预训练,以及约 100 个行业大模型同时进行微调训练。

  可以看到,云从的“一鸣惊人”,并非一日之功,也并非单打独斗。

  除了自身技术实力以及应用生态优势,也同他们从一开始「技术认知」不无关系。

  从容大模型的几次迭代,瞄准的都是能快速普及应用的刚需能力,比如多模态能力,以提供更好的交互性能;还有像推理与压缩大模型参数,更低成本实现更快的部署。

  本身就立足于人机协同操作系统的云从,此次大模型恰好给它带来了新的灵感和范式。

  与此同时,带来了新的行业问题:AI 格局、大模型格局,现在距离“确定”还很远。

  大模型格局,是时候重新审视

  行业发展到现在,的确到了重新审视的时候了。

  此前,业内将全新大模型创业独角兽,按照了“五虎”、“六小强”来统称。

  虽然团队技术风格、战略路线都不尽相同,但都有个共同点:

  他们来势汹汹,资本押注,迅速闪耀。

  有 OpenAI 这样一个超强独角兽在前作为参考,国内资本市场对他们寄予厚望,其关注度自然比以往任何一次技术浪潮更甚,诸多创新公司以对标 OpenAI 出发,从 0 到 1 打造基础大模型,然后在第一阶段竞速中脱颖而出,被统称、被归类,视为冲击下一阶段 AGI 大目标的种子选手。

  新玩家的关注度,始终占据主流。

  甚至一度要比巨头玩家,硅谷的谷歌、Meta,国内的 BAT 华为讯飞,都更被期待。究其原因,无非是市场对于“年轻锐气”的偏爱,以及认定“一个时代有一个时代的公司”。

  但即便如此,在 AI 2.0 的浪潮中,却也有不容忽视的独特性。

  因为 AI 2.0,无非是对生成式 AI、大模型浪潮的一种人为划分,但 AI 或者深度学习的本质驱动力三要素,始终没有发生过改变。

  依然是:算法、算力和数据

  而且随着 Transformer 成为主流,业内接受其算法范式新潮流的地位,那算法的魔力、带来的差异性,只会随着时间的流逝而减弱。

  算力和数据正在成为新阶段竞速的关键,或者更准确地说,是运用算力和数据的能力。

  所以谁是运用算力和数据的能力里,不容忽视的实力派玩家?

  答案可能有很多,但一定有 AI 1.0 里久经考验、落地为王中胜出的公司。

  他们有深度学习的研发能力,拥有学研和产业落地检验后的算力能力,还有时间和规模构建起的数据壁垒。在巨头玩家和 AI 2.0 初创公司之间,他们是不折不扣的中坚、中流砥柱,绝对不容忽视。

  实际上,如此维度的观测并非只是趋势指引,而是对已经发生的现象归纳出的总结。

  就在大模型浪潮开始后,商汤、旷视、云从……都迅速给出了属于新浪潮的成绩单,这就是技术源发一脉才能展现的实力。以及还有更具体搅动产业竞速的 Token 成本降价大战,“始作俑者”深度求索,实际也是一家 AI 1.0 时代出发的公司。

  而且 AI 1.0 里的赢家,面对接下来的擂台赛,还有更有利的位置和资源。

  如果说现在统称的 AI 新四小龙、五小虎、六小强……都只是对技术实力、估值的概括,那接下来真正考验能力的,是落地场景和商业化能力。

  对于 AI 2.0 公司是新挑战,对于 AI 1.0 公司则是飞轮之下久经考验的小 case,甚至他们有成熟的团队、方案、场景和数据,拥有时间和实践检验的保证。

  就像从容大模型刚刚发布时,云从这样回答大模型带给他们的变与不变——

  变了吗?其实没变,同样人机协同的立足点,同样的行业生态伙伴,就是服务客户也基本上是同一批。要说变了吗,其实也变了。那就是大模型带来技术范式的新灵感。大量的智能化涌现,让更多技术实践中遇到的问题都可以迎刃而解。

  现在来看,从容大模型的最新成绩,各行业场景的落地,印证了判断的准确性。

  所以归根结底,大模型带来的 AI 格局冲击和重写,才刚刚开始。

  1. 0 也好、2.0 也好,都是对阶段性发展的概括。四小龙也好、五小虎也罢,都是对一个类型一个横截面的片面统称。

  如果要更加全局性审视 AI 江湖,按照技术和商业的两大指标,参考算法、算力和数据的价值潜力……行业概念就需要重新审视了。

  比如以从容大模型站上擂台之巅、已经开启规模化场景产业落地的云从,是 1.0 时代的龙,也很难说不是 2.0 时代的虎——至少,是时候提出这个问题了。