O laboratório de IA sediado em Xangai StepFun lançou esta semana o StepAudio 2.5 Realtime, um modelo de voz em tempo real de ponta a ponta que suporta chinês e inglês. O modelo liderou todos os cinco benchmarks de IA de voz testados em abril de 2026, superando o GPT Realtime 1.5 da OpenAI e o Gemini Live da Google, de acordo com os testes da StepFun.
No benchmark de compreensão paralinguística — que mede a perceção de características acústicas como a emoção e a velocidade de fala numa escala de 0–100 — o StepAudio obteve 82,18 face aos 80,46 do GPT Realtime 1.5 e aos 58,05 do Gemini Live. Nos testes de avaliação humana, o StepAudio atingiu 80,41, em comparação com 68,01 no GPT Realtime 1.5 e 67,16 no Gemini Live. A StepFun treinou o modelo num conjunto de dados de personas em escala de um milhão, com aprendizagem por reforço específica para roleplay, para manter a consistência do personagem durante conversas prolongadas.