GPT-4o实测:离“未来已来”还有一段路

  没有事先张扬的 AI 搜索,而是 ChatGPT-4o,一个新版的、免费开放的 GPT 产品。

  昨晚(硅谷时间周一 10 时),Open AI 抢在 Google I/O大会之前召开了发布会,发布了一个名为 ChatGPT-4o(o=omni,即“全方位”的意思)的全新版本。

  四个亮点:

1)免费:ChatGPT-4o 将免费开放给所有用户; 2)实地互动:把实时演绎到了极致,按演示内容,AI 可以通过摄像头、收音孔和麦克风,实时查到图像、听到声音,并对获取的信息进行; 3)拟人:可以模拟人的情绪,可以实时读懂人的情绪,在情绪层面与人互动; 4)融合:发布首个电脑客户端,不再只有网页版,可以与电脑深度融合,可以直接针对电脑里你浏览的网页信息、正在处理的办公内容以及随时想问的问题进行解答。

  发布会的内容很炸裂。

  截至发稿前(5 月 14 日晚 21 时),我对 ChatGPT-4o 进行实测:

  实测:直到本文发布前,作为 GPT4 的付费用户,目前白熊观察员在 ChatGPT 的 App 上可以使用 ChatGPT-4o,但此模型实际上仍然只具有 GPT4 的能力,发布会所有多模态功能均未落地,实际效果有待进一步观察。

  还是那句老生常谈:人们常常高估一项新科技的短期价值,低估它的长期价值。

  与目前铺天盖地的“颠覆”之声不同,我认为存在四个可能问题,可能导致我们在短期内都不可能流畅地使用到演示视频里那种黑科技。

  一是算力与能源问题。AI 超能力有效落地,背后涉及资源分配平衡问题。

  AI 能力的背后是算力资源,再底层来看就是能源,ChatGPT4 发布以来,实际表现的能力一直有波动,有许多分析指出,这与 Open AI 本身长期紧张的算力资源有关。

  白熊观察员实测了 ChatGPT 的 iOS App,尽管发布会显示的是功能会逐渐开放,但目前功能上,我们体验到的就是一个与 GPT4 没有区别的语音模型,关键的多模态能力尚未开放,也不具备在对话中随意打断 GPT 的能力。据业内人士告诉白熊观察员,目前看 GPT-4o 模型在运行速度上有显著提升。

  我直接问了 GPT-4o,不过对方回复是,通过摄像头的实时连接功能目前尚没有时间表。

  事实上,GPT4 推出之后,Open AI 就一直饱受算力资源紧缺的困扰,许多迹象均体现了这一点。例如,GPT 从语音功能开始,各项新产品的落地,均有较长的延时,由于 GPT 的用户规模远超其它同类产品,这使用 Open AI 支撑新产品应用所需要的算力资源乃至电力等能源也远远超过其它 AI 企业。

  业内人士报料,GPT4turbo 发布之后,普及到所有付费用户也花费了较长时间,同时 Open AI 还较为鸡贼地混用了 3.5 和 4.0 的不同模型能力。

  (免费账号尚无法使用 GPT-4o)‍‍

  另外,关于 GPT-4o 的免费问题,目前我用新账号登录 Open AI 官网,可以免费使用的仍然只有 GPT3.5,GPT-4o 的免费版本暂进还没有出现。一位从事各类 AI 应用账号销售的朋友告诉白熊观察员,目前他注册了一批 GPT 免费账号,只有一个显示可以使用 GPT-4o,其余均没有此功能。由此可见,这一功能的普及尚需时日。

  二是网络环境带来的各种延时与隔绝。

  发布会称,反应速度可以达到 232 毫秒~320 毫秒,但今天我作为付费用户使用体验来看,实际上反应速度仍然需要 3 秒左右,发布会的无缝连接似乎仍然太理想了。

  这应该与我所处的网络环境有关。但是,从短期来看,不同国家网络环境不同带来的速度隔绝,恐怕需要很长时间才能解决,短期内看,GPT-4o 这样的模型,不太可能变成一个本地部署的小模型,网络环境将极大影响“全方位”模型的体验。

  试想,如果你不是处在硅谷这样的网络环境,而是处在亚马逊丛林、非洲或者太平洋岛国上,或者在远洋船舶或飞机上,网络环境都将面临着巨大的不确定性,这将给“全方位”的多模态大模型带来巨大的挑战。

  三是 AI 获取最新信息的问题。

  AI 真正要实现人机之间的无缝交互,有一个关键门槛,就是如何实时获取准确地外界最新信息。此前 Open AI 释放出烟雾弹,称将发布 AI 搜索产品,可惜并不存在这一产品。但从行业角度来看,AI 搜索非常重要,这是给 AI 及时补充最新信息的关键技术。目前的所谓 AI 搜索产品,在信息筛选的准确性,以及对长尾信息的遗漏上都存在问题,Open AI 如何解决此类问题,值得关注。

  (给出了借误答案)

  (终于答对了)

  目前测试来看,ChatGPT 目前对于最新的资讯信息的更新非常不及时,我几次对话中请 GPT 给出 ChatGPT-4o 的相关信息,它给出的信息并不准确。

  对最新信息的获取、筛选和掌握,恐怕将影响模型落地应用效果的上限。

  四是复杂的国际环境带来的政策问题。

  短期内,逆全球化现象在加剧,从行业视角来看,这对于人才流动、AI 硬件供应链、国际合作与技术共享等都会产生较大的阻碍。

  除了国际政治因素以外,各个区域的法律及伦理因素,也对 AI 应用的落地产生很大的挑战。以 ChatGPT 为例 ,除了 GPT-4o 之外,最近有个很重要的更新,就是 Memory(全局记忆)功能普及到所有 GPT4 用户,这一功能的目的是让 AI 能够全面记住用户的信息,但这背后也存在用户有的隐私安全等问题,因此基于不同地区法律法规的不同,欧洲和韩国的用户将暂时无缘这一功能。

  目前 GPT 的电脑客户端就在尝试与电脑的融合,未来,GPT 必然会与更多的智能设备融合,没有记忆功能,GPT 与人的互动体验恐怕很难保证。

  除此之外,不管是 GPT 还是 Claude 或者其它 AI 大模型,目前几乎所有的 AI 应用都主动选择仅向全球部分区域开放,总有一些区域在开放范围之外。

  不能广泛地在全球各地应用,也不能广泛地从全球获取训练数据,这对于 AI 大模型泛化能力的进一步提升,恐怕也是抄战。

  上述问题,恐怕是 AI 大模型产品短期内普及的挑战,一切都还需要是一步观察。