
新智元报道
编辑:KingHZ
谷歌强势回应 OpenAI:开源 TranslateGemma 模型,支持 55 种语言,效率惊人!12B 参数超越 27B 基线,手机端轻松运行,真正速通「巴别塔」。
语言的边界,正被 AI 一一抹平。
OpenAI 悄悄发布了翻译产品 ChatGPT Translate,谷歌则祭出强势回应——
TranslateGemma,一个能在手机上翻 55 种语言的开源模型。
AI 正在徐徐开启巴别塔之门。
从语义润色到图文混合,从文风调节到设备端运行,AI 翻译不再是「你说我译」,而是对人类沟通方式的全新重构。
不同于 OpenAI 几乎悄无声息的上线 ChatGPT 翻译,谷歌全网高调宣布发布了支持 55 种语言的开源翻译模型 TranslateGemma。




这的确值得一说,AI 正在降低沟通障碍,全网好评不断。



ChatGPT:偷袭谷歌翻译
近日,OpenAI 首次挑战谷歌翻译。
一款名为 ChatGPT Translate 的独立翻译工具,低调上线了。
OpenAI 几乎没有任何公开宣传,目前都不知道 ChatGPT Translate 具体何时上线。
互联网档案馆(Internet Archive)的 Wayback Machine 上有一张 11 月份的网页快照:
https://web.archive.org/web/20251119103023/https://chatgpt.com/translate/
看起来与当前页面几乎一致,但这也可能只是 OpenAI 在测试该工具的线上版本。
该工具支持超过 50 种语言,基础界面与谷歌翻译高度相似。


左右滑动查看
但在功能逻辑上,ChatGPT 翻译引入了生成式 AI 的核心优势,最大亮点在于翻译后的「二次加工」能力:
用户可以通过预设的提示词选项,一键调整译文的语气,如「更流利」、「商务正式」、「儿童易懂」或「学术风格」,从而实现针对不同受众的精准表达。
然而,作为初版产品,它目前在功能完整性上仍落后于谷歌,暂不支持文档、网页及手写翻译、图片翻译功能。
目前,ChatGPT Translate 仅以网页形式存在,并没有专门的 App。
因此,离线使用似乎仍无从谈起。
如果没有一款支持端侧翻译的应用,ChatGPT Translate 对于在无网络的偏远地区旅行的用户来说可能并不实用。
另外,它也尚未提供实时对话翻译功能。相比之下,谷歌的 Pixel 10 现在已经支持通话语音实时翻译。
此前,ChatGPT 已可以用于多语言翻译任务,但这还是 OpenAI 第一次推出独立的 AI 翻译服务,而且无需登录可免费使用。

2023 年,沃顿商学院教授 Ethan Mollick 就注意到,ChatGPT 翻译能力出色:
尽管 ChatGPT 就是为了英语中使用而构建,并不是翻译工具,但在一些小规模测试中,在翻译能力上,ChatGPT 经常优于 Google Translate(谷歌翻译)。

2024 年,美国明尼苏达州政府利用 ChatGPT 加快并扩大面向非英语居民的翻译服务
-
明尼苏达州企业翻译办公室使用 ChatGPT 将政府文件翻译成多种语言
-
人工智能辅助流程将翻译时间从数周缩短至 48 小时以内
-
自实施以来,该办公室已处理了 3000 份翻译请求,累计翻译超过 200 万字

去年,网友使用过 ChatGPT 翻译功能后,直呼:头皮发麻,这就是双语实时翻译天花板。

ChatGPT Translate 的问世标志着翻译工具正从单纯的「语言转换」向注重语境与交互的「智能适应」方向演进。
不过,尽管这些语气与语境方面的能力颇具吸引力,ChatGPT Translate 与谷歌翻译相比仍显得有些「半成品」——
后者已发展了数十年,最近还通过基于 Gemini 的改版进一步增强了对习语和俚语理解的支持。
而且,谷歌这次直接开源了最新的翻译 AI 模型,直面 ChatGPT 的挑战。

谷歌 TranslateGemma 让手机翻译 55 种语言
基于 Gemma 3,谷歌发布了开源翻译模型 TranslateGemma,它非常酷:
-
支持 55 种语言,并在近 500 种附加语言对上进行了训练,以供进一步研究
-
效率出色:12B 模型超越了 27B 基线模型,在参数数量不到一半的情况下实现了更优的性能
-
保留多模态能力:能够翻译图像中的文本,而无需特定的多模态训练
-
灵活的部署选项:4B 适用于移动设备/边缘设备,12B 适用于消费级笔记本电脑,27B 适用于云 GPU/TPU

在对模型的技术评估中,最令人瞩目的发现是它们的效率表现。
12B 参数规模的 TranslateGemma 模型,在 WMT24++ 基准测试中使用 MetricX 衡量后,性能超越了 27B 的 Gemma 3 基线模型。
这对开发者来说无疑是巨大利好:只需不到一半的参数量,就能实现高度保真(high-fidelity)的翻译质量。
这项效率上的突破,意味着可以在不牺牲准确性的前提下,实现更高的吞吐量与更低的延迟。
同样值得注意的是,4B 模型的表现已接近原本的 12B 基线水平,这使得它成为移动端推理的理想选择。

这意味着开发者可以构建完全在设备端运行的低延迟翻译工具。
TranslateGemma 的背后,源自 Gemini 模型体系。
之所以能实现如此高密度的智能表现,关键在于一种专门设计的双阶段微调流程,将 Gemini 模型的「直觉」成功蒸馏并融入开放架构中。
第一阶段:监督式微调(SFT)
他们以 Gemma 3 的基础模型为起点,使用多样化的平行语料进行微调。这些语料既包含由人工翻译的高质量文本,也涵盖由最先进的 Gemini 模型生成的高质量合成译文,覆盖范围广泛,甚至在低资源语言上也能保持出色的翻译保真度。
第二阶段:强化学习优化(RL)
为了进一步提升翻译质量,他们引入了创新性的强化学习环节。在这一阶段,他们构建了一套奖励模型的集成系统,包括 MetricX-QE 和 AutoMQM 等先进评估指标,引导模型生成更具上下文准确性、听起来更自然的译文。
此外,TranslateGemma 延续了 Gemma 3 在多模态方面的强大能力。
在 Vistra 图像翻译基准上的测试表明,即使在训练过程中并未专门进行多模态微调,其文本翻译能力的提升也显著增强了模型处理图像中文字翻译的表现。
这意味着,TranslateGemma 在文字与图像的交叉处理能力上,也具有天然的优势。
这场由 OpenAI 与谷歌引燃的 AI 翻译之争,早已超越「谁更准确」的争议,而是走向「谁能更像人、谁能真正懂人」的深层较量。
从语言模型到语境模型,再到认知协同系统,AI 正在让世界重写沟通规则。
而真正的赢家,或许是全人类。
参考资料:
https://blog.google/innovation-and-ai/technology/developers-tools/translategemma/
https://www.androidauthority.com/chatgpt-translate-3632584/
https://chatgpt.com/zh-Hans-CN/translate/
https://x.com/GoogleDeepMind/status/2011848249850630363
