Google 宣布 Gemini 3.5 Live Translate,这是一款用于语音到语音的 AI 模型,能够在超过 70 种语言之间提供即时的语音到语音翻译。该发布将实时翻译的可用性扩展到此前针对特定 Google 手机或耳机的要求之外,并提供了比先前实现更低的延迟。多年来,Google 将实时翻译作为其开创性的机器学习实验之一持续推进;此前曾在去年先于今天的更广泛部署,在 Translate 应用中推出有限的实时翻译功能。
Gemini 3.5 Live Translate 技术规格与模型家族
Gemini 3.5 Live Translate 属于在 I/O 推出的 3.5 家族版本。在今天之前,Google 只推出了 Flash 版本,预计 Pro 模型将在未来几周发布。该语音到语音模型经过调优,可自动检测并翻译超过 70 种语言。
据 Google 称,Gemini 3.5 Live Translate 速度足以跟上正常对话:在语音者之后仅延迟几秒,同时还能匹配语调、语速和音高。该模型生成的语音输出听起来更像原始说话者,而不是通用的“机器人”声音。Google 在受控条件下录制了演示,展示了这些能力。
推出范围覆盖 Google 生态系统与用户访问
Gemini 3.5 Live Translate 正在向 Google 生态系统的多个部分逐步推出。该模型可在 Google Meet 中用于视频通话期间的语音翻译。用户无需等待更长的验证周期即可使用翻译能力。
开发者 API 访问与自动处理功能
开发者可以在 Gemini Live API 或 AI Studio 中通过公开预览开始构建。模型会持续处理语音,并自动处理所有多语言输入,从而免去开发者手动配置设置。它还会在繁忙环境中过滤背景噪音。
FAQ
Gemini 3.5 Live Translate 支持哪些语言?
Gemini 3.5 Live Translate 支持超过 70 种语言,具备自动检测与翻译能力。
用户在哪里可以访问 Gemini 3.5 Live Translate?
该模型正在向 Google 生态系统的多个部分逐步推出,包括用于语音翻译的 Google Meet,开发者可通过 Gemini Live API 或 AI Studio 的公开预览访问。
Gemini 3.5 Live Translate 如何处理语音?
该模型会持续处理语音,自动处理多语言输入而无需手动配置,并在繁忙环境中过滤背景噪音,同时匹配说话者的语调、语速和音高。