Google 发布 Gemini 3.1 Flash TTS:增强情感表达与多说话人能力

Gate News 消息,4 月 17 日——Google 于 4 月 15 日公布 Gemini 3.1 Flash TTS,这是一款先进的文本转语音模型,具备增强的情感表达与控制特性。新模型将通过开发者 API、企业 Vertex AI 以及协作工具逐步推出。

该模型的核心能力包括基于自然语言的音频标签,用于加快微调速度、控制语调与情感;另配备“导演模式”,可用于指定场景与角色身份,以生成更细腻的语音输出。多说话人功能可实现同时生成对话内容,使对话流程更自然,适用于播客、有声内容以及 AI 助手。该模型支持 70 多种语言和方言,体现了地区口音与表达方式,为全球本地化语音体验提供支持。

Google 强调性能与成本效率,在盲测的人类评估基准上取得了高分,同时通过其 Flash 架构降低了计算成本——该架构面向大规模企业采用进行了设计。生成的音频包含 SynthID 水印,用于识别 AI 生成内容并打击不实信息。

此举体现了语音交互领域竞争的进一步加剧。OpenAI 正将实时语音能力与对话式 AI 结合,以实现类似人类的交互,而 Meta 则在具有语音驱动的社交体验方面扩大对 AI 角色的投入。行业观察者指出,尽管高水平的表演和创意工作目前仍可能由人类主导,但重复性与大规模生产市场可能会在配音、广告和有声读物等领域逐步迎来 AI 采用。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

科罗拉多州立法者提出以 AI 法替代方案来解决行业担忧

科罗拉多州立法者正着手废除并取代该州 2024 年的人工智能法案 SB24-205,并以新规则替换。新规则将缩小 AI 监管的范围,同时回应行业对合规负担的担忧。新的提案 SB26-189 将监管所使用的 AI 系统,其中包括

Crypto Frontier2小时前

R0AR 进入 Consensus 2026 PitchFest 决赛轮,勉强错失前 20 名

根据 MetaversePost,R0AR 于 5 月 4 日晋级 CoinDesk 2026 PitchFest 的最终遴选轮,险些错过入选现场路演的前 20 家初创企业。这位 Web3 和 AI 创新者与全球其他高潜力初创企业一同接受评估,位于行业的其中一个 m

GateNews6小时前

马斯克在开庭前寻求向 OpenAI 达成 1500 亿美元和解,和解谈判失败

根据一份法院文件,埃隆·马斯克于 4 月 26 日联系了 OpenAI 总裁 Greg Brockman——在他们于奥克兰联邦法院开庭的前两天——以探讨和解。 当 Brockman 建议双方都放弃各自的主张时,马斯克以威胁回应,告诉 Brockman:“到年底

GateNews6小时前

Cursor 接受 SpaceX 的 600 亿美元收购要约,但不会与 xAI 在编码模型方面合作

据 The Information 称,Cursor 已接受来自 SpaceX 的一项附条件 600 亿美元收购要约,尽管该交易尚未最终敲定。该公司目前没有计划与 SpaceX 的 AI 部门 xAI 合作开发编码模型。相反,Cursor 正在专注于对其进行优化

GateNews6小时前

Haun Ventures 在 5 月 4 日关闭 10 亿美元基金,在早期与后期加密投资之间分配资本

据 Bloomberg 称,Haun Ventures 于 5 月 4 日完成了一轮 10 亿美元的融资,其中 5 亿美元用于早期投资,5 亿美元用于后期投资。该基金将在未来两到三年内部署资金,面向加密货币和区块链初创企业,同时扩展

GateNews7小时前

OpenAI 为部署合资企业筹集 $4 十亿,估值 100 亿美元

据 BlockBeats 称,在 5 月 4 日,OpenAI 融资超 $4 billion(应按规模词转换为中文“亿/万亿”等表达),以设立一家新的合资企业,专注于帮助企业采用其人工智能软件。该企业名为 The Deployment Company,由包括 TPG Inc.、Brookfield Asset Management 在内的 19 家投资者支持,

GateNews8小时前
评论
0/400
暂无评论