Beating a annoncé que Resemble AI a publié DramaBox, un modèle de génération de discours, sur Hugging Face aujourd’hui. Le modèle offre un contrôle de niveau réalisateur grâce à une syntaxe de prompt séparée : les utilisateurs saisissent le dialogue entre guillemets tout en précisant des indications de scène telles que des soupirs, des pauses ou des chuchotements en dehors des guillemets. Le modèle transforme ces indications en discours avec inflexions émotionnelles, plutôt que de les lire à voix haute.
DramaBox prend en charge le clonage vocal zero-shot avec seulement 10 secondes d’audio de référence et permet des prompts en langage naturel pour définir l’âge, l’accent et l’émotion du personnage. La sortie propose un audio stéréo en 48 kHz de qualité studio. Tous les audios générés incluent un filigrane Perth invisible, résistant à la compression MP3, ainsi qu’un traitement audio standard afin d’empêcher tout usage abusif des deepfakes.
Related News
OpenAI ajoute la détection des conversations de crise sur ChatGPT, améliorant la capacité d’alerte en cas de violence d’automutilation
WhatsApp avec Meta AI lance des conversations sans trace, les messages qui disparaissent automatiquement suscitent des inquiétudes quant à une éventuelle mise en cause
Mistral AI en pourparlers avec une banque européenne pour développer Mythos, un modèle alternatif de cybersécurité