Google 宣布 Gemini 3.5 Live Translate,這是一款語音到語音(speech-to-speech)的 AI 模型,可在超過 70 種語言之間提供即時語音到語音翻譯。此次發布擴展了即時翻譯的可用性,超越了先前僅限特定 Google 手機或耳機的要求。其延遲比過往的實作更低。Google 已投入多年來推動即時翻譯,作為其先驅性的機器學習實驗之一;先前也曾在去年於 Translate 應用程式中推出有限的即時翻譯功能,然後才在今天進行更大範圍的部署。
Gemini 3.5 Live Translate 技術規格與模型家族
Gemini 3.5 Live Translate 屬於在 I/O 發表的 3.5 系列版本。就在今天之前,Google 只推出了 Flash 版本,而預計在接下來幾週推出 Pro 模型。該語音到語音模型可調校成自動偵測並翻譯超過 70 種語言。
根據 Google 的說法,Gemini 3.5 Live Translate 足夠快,能跟上一般對話;說話者之後僅延遲幾秒,同時還能匹配語調、節奏與音高。該模型產生的語音輸出聽起來更像原始說話者,而非通用的機器人語音。Google 也釋出了在受控條件下錄製的示範影片,以展示這些能力。
於 Google 生態系的全面部署與使用者存取
Gemini 3.5 Live Translate 正逐步在 Google 生態系的多個部分推出。該模型在 Google Meet 於視訊通話期間提供語音翻譯功能。使用者可在不必等待較長驗證期的情況下存取翻譯能力。
開發者 API 存取與自動處理功能
開發者可透過 Gemini Live API 或 AI Studio 的公開預覽開始使用並進行建置。該模型會持續處理語音,並自動處理所有多語輸入,讓開發者無需手動設定內容。它也能在繁忙環境中過濾背景噪音。
常見問答
Gemini 3.5 Live Translate 支援哪些語言?
Gemini 3.5 Live Translate 支援超過 70 種語言,具備自動偵測與翻譯能力。
使用者可以在哪裡存取 Gemini 3.5 Live Translate?
該模型正在 Google 生態系的多個部分推出,包括用於語音翻譯的 Google Meet;開發者也可透過 Gemini Live API 或 AI Studio 的公開預覽存取。
Gemini 3.5 Live Translate 如何處理語音?
該模型會持續處理語音,自動處理多語輸入而無需手動設定,並能在繁忙環境中過濾背景噪音,同時也能匹配說話者的語調、節奏與音高。