2024年人工智能年终总结报告|Artificial Analysis

  新智元报道

  编辑:泽正

  Artificial Analysis 回顾今年人工智能的重大事件,梳理出了一份关于人工智能领域的年终总结。

  临近年末,在人们都开始着手于年终总结的时候,Artificial Analysis 也给出了关于 2024 年 AI 变革式发展的回顾。 令人欣喜的是,我国的 Qwen2.5 Instruct 72B 与 DeepSeek V2.5 还有可灵 AI 等也名列其中。

  毫无疑问的是,2024 年对于 AI 的发展是里程碑式的一年。今年我们见证了太多 AI 技术变革带来的惊艳,而它们也在短短一年的时间里就对我们的生活学习方式产生了重大的影响。

  这一年里,各家大模型的能力提升层出不穷。从 gpt-4o 的交互式高质量解决问题到 o1 那令人震惊的推理能力,再到刚刚发布的 o3,OpenAI 还是一往如常地为我们不断带来新的人工智能范式。

  对于开发者来讲,Claude 3.5 Sonnet 出色的辅助代码体验更是让 Anthropic 给 OpenAI 带来了真正的市场竞争压力。

  而就在 12 月,闷声办大事的 Google 也通过发布 Genmini 2.0 Flash 和 Genmini 2.0 Flash Thinking 彻底打了一场漂亮的翻身仗,成功逆袭。

  并且,这一年里,无论是模型的能力表现、响应速度、API 价格都有显著的提升,就像集成电路的摩尔定律一样,大模型也迎来了它自己的「摩尔定律」时代。

  这里要用到左右排版

  自 OpenAI 在 2022 年 12 月发布 GPT-3.5 模型驱动的 ChatGPT 以来,生成式 AI 就如火如荼地展开了一场声势浩大的「军备竞赛」。

  而仅仅不到两年,多个实验室就都已经赶上了 OpenAI 的 GPT-4,甚至出现了第一批超越 GPT-4o 智能水平的模型。例如:Claude 3.5 Sonnet,Gemini 1.5 Pro 以及新近发布的 Gemini 2.0 Flash。

  截止 2024 年,在 LLM 领域,依然是美国位于主导地位,其中主要是 ChatGPT、Gemini、Claude、Nova、LLama 系列。而我国则暂时处于第二梯队,取得国际关注与认同的主要有 Qwen2.5 Instruct 72B 与 DeepSeek V2.5。其余国家则只有法国、加拿大、以色列达到了一定水平,大部分国家在这场竞赛中都与领先国家望尘莫及。

  而在 Open AI 不再「Open」之后,开源模型也没有因此就与专有模型的性能有难以克服的差距。在 Meta、Mistral 和阿里巴巴发布的开源模型的驱动下,开源和专有模型之间的性能差距也有了显著下降。

  更加利好消费者的是今年语言模型的推理定价在所有智能水平上都大幅下降,例如 GPT-4o mini 在智能水平上接近 GPT-4,但价格却便宜了 100 倍。 而得分超越 GPT-4 Turbo 的国产大模型 Qwen2.5 72B 的价格也甚至只有 GPT-4 Turbo 的 1.3%。

  推理定价下降的一个关键驱动因素是小模型也能达到之前只有大模型才能达到的智能水平,例如微软最新推出的 phi-4 模型。

  上下文窗口长度对于模型的实际应用是至关重要的,因为许多应用程序不仅仅使用文本,更大的上下文窗口才能支持包括图像、视频和音频在内的多模态输入。而现在它也来到了 128K tokens 的长度,对比 23 年的三季度,短短一年整整增长了 32 倍!

  对于使用者来讲,目前更加倾向于使用头部企业的产品,如 OpenAI,Meta,Anthropic,Mistral,Google。而影响选择模型最重要的因素则有:推理质量,上下文窗口,价格,速度等。

  人们对于 LLMs 的使用都不局限在某一个需求方面,而是覆盖了信息抽取、长文本总结、文本生成等需求,而且也最在意模型的多模态能力。

  对于各种各样的技术与商业需求来讲,大部分开发者用户都会同时使用多个模型。其中 72% 的开发者会直接使用已发布成品模型,另外的 24% 则是针对现有的模型进行微调,仅有4% 是从头开始对模型进行训练。

  2024 年,图像生成质量也得到了迅速发展,其中在照片真实感、提示符合度和文本渲染方面取得了显著的进步。下图中的提示词为:印着「Artificial Analysis」的下一代宇宙飞船环绕在景色令人惊叹的地球。我们可以发现,随着先进的文生图模型不断迭代推出,生成的图像也越来越逼真,符合实际规律。

  随之而来的是,2024 年图像模型的进步和竞争也加速了。人工智能分析图像领域的前 5 名模型都是自 2024 年第三季度以来推出的。例如 24 年 10 月推出的 Recraft v3 模型。

  有意思的是,OpenAI 在 2024 年 2 月就预览了 Sora,当时竞争其实还很小,但到了 2024 年 12 月它推出时,这个领域的竞争就已经激烈起来了。诸如快手的可灵、MiniMax 的海螺 AI 以及腾讯的混元都对 Sora 发起了挑战。

  基于 Transformer 的文本转语音模型也在 2024 年 OpenAI 的领衔下达到了新的质量里程碑,超越了曾经的云服务供应商。

  在 AI 语音识别领域, OpenAI 在 2022 年末开源 W h isper 重塑了整个领域格局 ,使得云推理服务提供商能够进入市场,并在响应速度和价格上展开了竞争,为消费者带来了前所未有的高性价比体验。其中最快的一个可以在大约 10 秒内转录整整一小时的音频,转录的价格也降至每 1000 分钟音频不到 1 美元。Groq 发布的最新 Whisper 模型与亚马逊 2018 年模型相比有约 72 倍的价格降低和约 11 倍的速度提升。

  从 Artificial Analysis 给出的 2024 年的人工智能年度回顾报告中 ,我们也可以发现,这其中并没有统计到最新的 o3 与 Gemini 2.0 Flash Thinking。由此可见,今年整体的 AI 发展,尤其是 LLMs,其推陈出新的能力几乎超乎了人们的想象。

  这也让我们对即将到来的 2025 有了更多的憧憬与期望,明年是否又会是真正达成 AGI 的关键一年呢?答案就需要留待明年此时再来回看了。

  参考资料:

  https://artificialanalysis.ai/