Nova IA generativa da Nvidia cria música, voz e sons com qualquer texto

Fugatto usa comandos de texto ou arquivos de áudio para gerar novos sons, mas não tem previsão de sair comercialmente

Nilton Cesar Monastier Kleina

schedule26/11/2024, às 20:32

updateAtualizado em 26/11/2024, às 16:58

Nova IA generativa da Nvidia cria música, voz e sons com qualquer texto

Fonte: Nvidia/Reprodução

A Nvidia apresentou uma nova inteligência artificial (IA) generativa desenvolvida pela empresa para lidar com áudio. A plataforma se chama Foundational Generative Audio Transformer Opus 1, ou Fugatto na sigla criada pela marca.

A Fugatto é especializada em modificar e gerar vozes, música ou sons no geral com base em duas formas de entrada: comandos de texto ou outros arquivos de áudio.

smart_display

Nossos vídeos em destaque

Segundo a Nvidia, a ideia é que a IA seja utilizada por profissionais da indústria criativa em áreas como publicidade, design de jogos e música. Neste caso, ela é vista como ideal para "gerar um protótipo ou editar a ideia de uma música, tentando diferentes estilos" ou adicionando efeitos em um arquivo já pronto.

O que a Fugatto é capaz de fazer?

O segredo da Fugatto está em um recurso chamado ComposableART, que combina na geração de conteúdo ações multimodais — ou seja, de múltiplos formatos — que antes eram usados por ferramentas de IA apenas durante o treinamento.

De acordo com o vídeo divulgado pela Nvidia, é possível pedir para a IA uma batida de um ritmo específico e usando determinados instrumentos. Ela também é capaz de isolar os vocais de um arquivo de música, separando ele mesmo que a gravação esteja em uma qualidade reduzida.

A interface de solicitação e entrega de áudios do Fugatto. (Imagem: Nvidia/Reprodução)

Se o seu prompt em texto for bem escrito, você pode até pedir uma ambientação sonora completa, com barulhos de determinados elementos acompanhados de uma trilha sonora. Por fim, é também possível gerar vozes realistas do zero, indicando sotaque e tom de fala.