Google AI 開發者關係負責人 Logan Kilpatrick 於 4 月 15 日宣布推出 Gemini 3.1 Flash TTS — Google 最新的文字轉語音模型。這款模型支援 70 種語言、場景導演（scene direction）、說話者級別的精細控制與音訊標籤，目前已在 Google AI Studio 的音訊 playground 和 Gemini API 中開放使用。

四大核心功能

Gemini 3.1 Flash TTS 相較於前代有四項顯著升級：

場景導演（Scene Direction）— 可以為語音設定情境，例如「在嘈雜的咖啡廳中低聲說話」或「興奮地宣布好消息」，模型會根據場景調整語調、語速和情緒

說話者級別控制（Speaker-Level Specificity）— 在多角色對話中，可以為每個角色設定不同的聲音特徵

音訊標籤（Audio Tags）— 支援在文本中插入音效指令，控制停頓、語氣變化等細節

70 種語言支援 — 大幅擴展多語言覆蓋，包含中文

更自然、更有表現力的聲音

Google 強調這款模型在語音自然度上的進步。傳統 TTS 模型的輸出常被批評為「聽起來像 AI」，Gemini 3.1 Flash TTS 試圖透過更豐富的韻律變化和情緒表達來縮小與人類語音的差距。Kilpatrick 指出，從 Gemini 2.5 到 3.1 的進步「非常顯著」。

開發者如何使用

開發者可透過兩種方式使用：

Google AI Studio 音訊 Playground — 直接在網頁介面中測試和預覽語音效果

Gemini API — 整合至應用程式中，用於語音助理、有聲書、Podcast 自動生成、多語言客服等場景

Gemini 產品線持續擴張

Flash TTS 是 Gemini 3.1 系列近期密集發布的一環。此前 Google 已推出 Gemini Robotics ER 1.6（機器人視覺推理）、Tab Tab Tab（Vibe Coding prompt 補全）和設計預覽等功能。Google 正在將 Gemini 從「聊天模型」擴展為涵蓋文字、語音、視覺、機器人的全模態 AI 平台。

這篇文章 Google 推出 Gemini 3.1 Flash TTS：支援 70 種語言與場景導演，AI 語音更自然最早出現於鏈新聞 ABMedia。

免責聲明：本頁面資訊可能來自第三方來源，僅供參考，不代表 Gate 的立場或觀點，亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險，請勿僅依賴本頁資訊作出決策。詳情請參閱免責聲明。

馬斯克 X 推智慧標籤，3 天帶動全球 10 億美元交易量

Market Whisper04-20 06:32

Vitalik 確認赴港演講，以太坊 AI 與 ZK 生態應用成核心焦點

Market Whisper04-20 01:42

Canva宣佈深度整合Claude，實現將AI草稿轉化為設計成品

鏈新聞abmedia04-19 20:04

矽谷 AI Agent 現實：Token 大量浪費、系統整合「極度混亂」，黃仁勳「下一個 ChatGPT」預測待驗證

鏈新聞abmedia04-19 14:15

Google年度報告稱Gemini實現毫秒攔截，阻擋99%詐騙廣告

鏈新聞abmedia04-18 16:15