A Xiaomi lança o ControlFoley, um framework open-source para áudio e vídeo que permite um controlo preciso do som

De acordo com a Beating, a equipa de IA da Xiaomi lançou e disponibilizou em código aberto o ControlFoley, um framework para geração de áudio de vídeo que oferece aos criadores um controlo preciso do estilo do som através de descrições de texto ou de áudio de referência. Ao contrário dos sistemas tradicionais de dobragem por IA que inferem o som apenas a partir de imagens, o ControlFoley permite aos criadores modificar características do áudio — como transformar um toque de porta numa pancada metálica ou aplicar tons de bateria aos impactos de bolas de ténis — mantendo a sincronização áudio-visual. O framework utiliza um codificador áudio-visual tempo-espaço com uma estratégia de desacoplamento tempo-timbre. O relatório técnico do projeto, o código, os pesos do modelo e a demonstração já estão disponíveis.
Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário