总部位于上海的 AI 实验室 StepFun 本周发布了 StepAudio 2.5 Realtime,这是一款端到端的实时语音模型,支持中文和英文。根据 StepFun 的测试,该模型在 2026 年 4 月接受测试的所有五项语音 AI 基准中均名列前茅,表现优于 OpenAI 的 GPT Realtime 1.5 和谷歌的 Gemini Live。
在副语言理解基准上——在 0–100 的量表上衡量情感和语速等声学特征感知能力——StepAudio 得分为 82.18,而 GPT Realtime 1.5 为 80.46,Gemini Live 为 58.05。在人类评估测试中,StepAudio 的得分为 80.41,而 GPT Realtime 1.5 为 68.01、Gemini Live 为 67.16。StepFun 使用一个百万级角色画像数据集训练了该模型,并结合针对角色扮演的强化学习,以在长时间对话中保持角色一致性。