StepFun’s StepAudio 2,5 en temps réel dépasse cinq benchmarks d’IA vocales, devançant GPT Realtime 1,5

Le laboratoire d’IA basé à Shanghai StepFun a publié cette semaine StepAudio 2.5 Realtime, un modèle vocal temps réel de bout en bout prenant en charge le chinois et l’anglais. Le modèle a dominé les cinq benchmarks d’IA vocale testés en avril 2026, dépassant GPT Realtime 1.5 d’OpenAI et Gemini Live de Google, d’après les tests de StepFun.

Sur le benchmark de compréhension paralinguistique — mesurant la perception des caractéristiques acoustiques comme l’émotion et le débit de parole sur une échelle de 0 à 100 — StepAudio a obtenu 82,18 contre 80,46 pour GPT Realtime 1.5 et 58,05 pour Gemini Live. Lors des tests d’évaluation humaine, StepAudio a atteint 80,41 contre 68,01 pour GPT Realtime 1.5 et 67,16 pour Gemini Live. StepFun a entraîné le modèle sur un jeu de données de persona à l’échelle du million, avec un apprentissage par renforcement spécifique au roleplay afin de maintenir la cohérence du personnage pendant des conversations prolongées.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire