AI“明星”选手巅峰对决!记者实测最新谷歌Gemini与GPT-4o

  《科创板日报》5 月 17 日讯(记者朱凌) 近日,OpenAI 用一场 26 分钟的线上直播展示了 GPT-4o 带来的惊艳交互能力,将新一轮 AI 争霸带入了“Her 时代”。GPT-4o 的“o”代表“omni”,一词意为“全能”,该模型能够实现无缝的文本、视频和音频输入,并生成相应模态的输出,真正意义上实现了多模态交互。

  紧随其后一天,年度 Google I/O开发者大会如期而至,谷歌 CEO Sundar Pichai 宣布了一系列围绕其最新生成式 AI 模型 Gemini 的重大更新,全面反击 OpenAI,其中就有由升级后 Gemini 模型驱动的 AI 助手项目 Project Astra、对标 Sora 的文生视频模型 Veo 等。

  本周 AI 战场暂告一段落,《科创板日报》记者对 AI 界的“明星”选手——谷歌 Gemini 1.5 Pro(100 万 tokens)、OpenAI 最新升级的 GPT-4o 与此前发布的 GPT-4 进行了一场能力评测。

  ▍文本测试:谷歌 Gemini 1.5 Pro 正确率和速度完胜 GPT-4o 和 GPT-4

  OpenAI 发布 GPT-4 已过去一年多,据介绍,此次推出新旗舰模型 GPT-4o 的推理能力有明显的提升,速度快了,价格也下降了。

  谷歌 Gemini 系列以其标志性的超大上下文窗口出名,此前已拥有 Ultra、Pro 和 Nano 三种规格,各适配不同规模与需求的应用场景。本次发布会宣布,迭代后的 Gemini 1.5 Pro 的上下文长度从原有的 100 万 tokens(语句单位)提升到了 200 万 tokens。这一改进显著增强了模型的数据处理能力,使其在处理更加复杂和庞大的数据集时更加游刃有余。

  两家公司都对自己的大模型的升级换代展现出自信姿态,但情况还需要实际验证。

  第一题是“事实回答题”,只有谷歌 Gemini 1.5 Pro 模型回答正确,它能辨别出“螺丝钉并不是一种食品”这一事实。

  Gemini 1.5 Pro 回复结果

  GPT-4 和 GPT-4o 虽然对“麻辣螺丝钉怎么做”的回答非常详细和全面,涵盖了所需材料、制作步骤以及小贴士,但是却忽略了“螺丝钉并不是一种可食用品”这一前置事实。

  GPT-4、GPT-4o 回复结果

  第二题是“逻辑计算题”,GPT-4 和 GPT-4o 均回答错误,谷歌模型给出正确答案,并且显示了具体作答时间,不到 10 秒的时间里便给出了答案和解析,表现可谓“又快又好”。

  Gemini 1.5 Pro 回复结果

  不同模型在处理逻辑问题时所采取的思考策略有所差别。与 Gemini 1.5 Pro 在解答时先给出答案再详细解释其背后规律的方式不同,GPT-4 和 GPT-4o 更倾向于首先深入拆解问题,而非直接呈现答案。然而,这种对问题的细致分析和拆解过程也导致了后两者在回答时所需的时间相对较长。

  GPT-4、GPT-4o 回复结果

  第三题是“生物题”,GPT-4 回答错误,GPT-4o 和谷歌 Gemini 1.5 Pro 回答正确,用时分别为 14.83 秒和 11.2 秒,Gemini 1.5 Pro 略胜一筹。

  Gemini 1.5 Pro 回复结果

  第四题是“伦理道德题”,三个大模型的回答都正确,并且都能识别出是经典的伦理困境“电车难题”。GPT-4 和 Gemini 1.5 Pro 强调了伦理困境的复杂性,并没有给出直接的选择,GPT-4o 则根据“最大限度减少伤亡”的原则进行分析并给出选择。

  三大模型回复结果

  《科创板日报》记者总结文本测试结果发现,谷歌 100 万级参数的 Gemini 1.5 Pro 模型凭借四次全部正确的表现,实力杠杆,GPT-4o 答对了两次,而 GPT-4 模型的表现则不尽人意,仅答对了一次。

  由于目前 200 万级参数的 Gemini 1.5 Pro 模型尚未开放,《科创板日报》记者申请了内测,等待通过后再做进一步测试分享。

  ▍多模态测试:GPT-4o 在细节和分析能力上更胜一筹

  GPT-4o 是 OpenAI 对其广受欢迎的大型多模态模型 GPT-4 的第三次重大迭代,它通过视觉功能扩展了 GPT-4 的能力,新发布的模型能够以一种集成且无缝的方式与用户进行对话、视觉识别和互动。Gemini 1.5 Pro 也拥有多模态功能,适合处理摘要、聊天、图片分析和视频字幕、以及从长文本和表格中提取数据等。

  记者用“公园照片”询问三个大模型

  在测试中,记者用一张“公园照片”来询问三个大模型。根据图片测试反馈,三个大模型都准确地描述了公园照片的内容,但侧重点略有不同。GPT-4o 胜在信息完整性,详细列举了船只类型、湖面状态等各种细节,但略显冗长。Gemini 1.5 Pro 语言简洁流畅,用“悠闲地泛舟”、“景色宜人”等词语描绘出画面美感,但细节不如 GPT-4o 丰富。GPT-4 描述简洁,但细节不够丰富。

  简而言之,如果看重信息的全面性,GPT-4o 最强;若更注重语言表达,则 Gemini 1.5 Pro 表现略佳。

  由于目前 GPT-4 尚未具备音频和视频内容的解析能力,所以不做相关测评。OpenAI 联合创始人 Sam Altman 表示,新款语音模型 GPT-4o 尚未发货,已经发货只是文字版 GPT-4o。等到语音版一发货,记者将第一时间带来评测。

  根据视频测试反馈,GPT-4o 在解析视频内容时表现出了强大的多模态处理能力。它能够提取和分析视频帧,并通过图形界面直观地展示给用户。在分析过程中,模型准确地识别出了视频中的四足机器人,并对其外观、所处的环境以及所进行的活动进行了详细的描述。

  GPT-4o 视频测试回复

  相比之下,Gemini 1.5 Pro 的回复则显得简略又单调,在记者第二次追问下,才充实了更多细节。

  总体来看,如果目标是获取最全面、深入的多模态内容理解,GPT-4o 是当前的最佳选择,而 Gemini 1.5 Pro 则更适合那些重视表述质量与效率的多模态应用场景。不过,GPT-4o 和 Gemini 1.5 Pro 都没有提及对视频里的声音的分析,这是两个多模态大模型解析中的一个共同缺失。

  ▍前华为“天才少年”预测国内第一个端到端多模态大模型年底将到来

  AI 比赛行至白热化阶段已经告别单纯的技术竞争,转向应用和用户体验的竞争。

  在搜索引擎和办公领域,谷歌也将进一步将 AI 引入其中。记者发现,能够总结谷歌搜索引擎结果的“AI 概览”(AI Overviews)功能已能够使用。百度创始人、董事长兼首席执行官李彦宏昨晚在财报电话会上表示,目前百度搜索上有 11% 的搜索结果由 AI 生成。他指出,百度搜索的 AI 重构工作仍处于早期阶段,整体来看,搜索最有可能成为 AI 时代的杀手级应用。

  OpenAI 与谷歌都不约而同地盯上了能自然交互的智能助理,这种智能助理是一个端到端的统一多模态大模型,将推动 AI 应用的革命性变化。前华为“天才少年”、

  前华为“天才少年”、Logenic Al 联合创始人李博杰认为,国内第一个多模端到端多模态,很有可能今年年底就能差不多能出来了。

  针对 AI Agent 近期的发展速度放缓的问题,李博杰表示,“虽然 AI 智能助理的发展前景广阔,但成本和用户的付费意愿是目前限制其快速发展的主要因素。GPT-4o 它比 GPT-4 快 4 倍,并将成本降低了一倍,但是对于普通消费者来说可能仍然较贵。”

  李博杰称,从长期来看,实用性强的智能助理因其解决现实问题的能力而具有更高的价值。而短期内,情感陪伴和娱乐功能的智能助理更容易商业化,因为它们对可靠性的要求较低,开发和部署相对容易。