谷歌 Gemini 原生图像生成功能又双叒升级了!
与之前的实验版本相比(Gemini 2.0 Flash Experimental),这一次主打图像质量更好、文本渲染更准确,生成速度更快。
只需一句话,就能将两张图片中的元素丝滑融合在一起。
还能实时编辑图像,比如刚说完给图中人物加上眼镜,图片立马就生成好了。
p.s. 这个需要在 Google AI Studio 的 Starter Apps 板块体验
也可以指定仅修改图中某一部分,新图的其他部分能同时和原来保持一致。
更有意思的是,搭配 Gemini 2.0 Flash 食用,还能让模型自己构思自己生图。
现在,这些功能都可以在 Google AI Studio 免费试玩,模型请认准“
gemini-2.0-flash-preview-image-generation”。
开发者可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 集成,每张图片的价格为0. 039 美元(约合人民币 0.28 元)。
实际上,本次升级距离谷歌首次推出 Gemini 原生图像生成功能,仅过去一个多月时间。
网友们的感受也都体现在了下面这张梗图中:
- 谷歌最近真是火力全开啊!
实测最新升级
据谷歌 AI Studio 开发者平台产品负责人透露, 本次升级主要体现在以下几个方面:
- 更好的视觉质量
- 更准确的文本渲染
- 显著降低滤波器阻塞率(延迟和卡顿更低)
- 更高的速率限制(更快生成图像或能同时处理更多图像)
那么其实际表现究竟如何呢?我们也第一时间进行了实测。
首先,在谷歌提供的 demo 中,我们看到了它能很好地将完全不同的元素自然融合在一起。
于是我们也提供了下面两张原图,要求它帮忙生成量子位周边。
实测用时 5.4s,几乎一瞬间就生成了我们想要的图片。
尽管 logo 的颜色还有细微偏差,但整体构图已经很成熟了,处理抠图以及融合都比较干净。
而且上面这个例子还顺道考查了其文字渲染能力,除了中文,我们再尝试一下其他文字。
最常见的英文渲染正确,并且还自带艺术字设计。
继续换成希腊文(中译为“我爱你”)也有同款优秀表现,仔细对比未发现渲染错误。
OK,短暂告别这一趴,接下来我们测试其换图 or 扩图能力。
开启“找茬”模式后,我们不得不承认它确实只更换了吊床颜色,其他素材均和原图一致。
同时可以看到,在秒速生图过程中,它还会在接收用户指令后给出自己的理解。
此外,如果只给人物上半身,要求它生成完整人物形象呢?
第一次扩图,它只前进了一小步,完成了更多的人物上半身复原工作。
新生成的部分看起来也非常合理,从一根蓝色肩带扩展到了背带裤穿搭。
不过这不是我们一开始想要的“全身肖像”,所以继续……
最终结果如下,人物的比例和姿态都很完美,生成效果着实惊艳。
最后我们也体验了一波实时绘图功能,结论是其原生图像生成的速度确实快。
我们先随意画了一个太阳的草图,要求它为太阳加上笑脸,结果立马就搞定了。
而且还支持上色,效果也非常不错。
小结一下,从我们的实测来看,升级后的 Gemini 原生图像生成功能确实表现惊艳,尤其在遵循用户指令、文本渲染等方面。
当然,除了我们的测试,更多网友也第一时间分享了各自的玩法。
比较经典的就是用来搞装修设计,可以一键测试自己想要的装修风格。
不过也有浅浅翻车的,用它来扩图时最后生成的人物比例有点子怪异。
与此同时,也有人将它和近期非常火爆的 GPT-4o 生图进行了对比,初步结论是整体仍不如 GPT-4o(doge)。
One More Thing
值得一提的是,谷歌最新生图功能还能搭配 Gemini 2.5 Pro(近期以强悍的代码能力而出圈)食用。
只需在提示栏中选择 “Canvas”,上传一张图片后输入下列提示词:
- Transform this image into a code-based representation of its natural behavior.(将此图像转换为基于代码的自然行为表示)
最终就能得到一段视频演示。
除了预览效果,还能一键切换查看代码。
最后,也欢迎大家进行更多测试,顺便评论区带图分享一波~
在线体验: