Nova IA generativa da Nvidia cria música, voz e sons com qualquer texto

1 min de leitura
Imagem de: Nova IA generativa da Nvidia cria música, voz e sons com qualquer texto

A Nvidia apresentou uma nova inteligência artificial (IA) generativa desenvolvida pela empresa para lidar com áudio. A plataforma se chama Foundational Generative Audio Transformer Opus 1, ou Fugatto na sigla criada pela marca.

A Fugatto é especializada em modificar e gerar vozes, música ou sons no geral com base em duas formas de entrada: comandos de texto ou outros arquivos de áudio.

smart people are cooler

Tecnologia, negócios e comportamento sob um olhar crítico.

Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo

Segundo a Nvidia, a ideia é que a IA seja utilizada por profissionais da indústria criativa em áreas como publicidade, design de jogos e música. Neste caso, ela é vista como ideal para "gerar um protótipo ou editar a ideia de uma música, tentando diferentes estilos" ou adicionando efeitos em um arquivo já pronto.

Fora o Fugatto, que não tem qualquer previsão de ser lançado comercialmente ou ser implementado, a Nvidia está trabalhando também em recursos de IA para acelerar treinamento de robôs humanoides e deixar NPCs de jogos "extremamente realistas".

O que a Fugatto é capaz de fazer?

O segredo da Fugatto está em um recurso chamado ComposableART, que combina na geração de conteúdo ações multimodais — ou seja, de múltiplos formatos — que antes eram usados por ferramentas de IA apenas durante o treinamento.

De acordo com o vídeo divulgado pela Nvidia, é possível pedir para a IA uma batida de um ritmo específico e usando determinados instrumentos. Ela também é capaz de isolar os vocais de um arquivo de música, separando ele mesmo que a gravação esteja em uma qualidade reduzida.

A interface de solicitação e entrega de áudios do Fugatto. (Imagem: Nvidia/Reprodução)
A interface de solicitação e entrega de áudios do Fugatto. (Imagem: Nvidia/Reprodução)

Se o seu prompt em texto for bem escrito, você pode até pedir uma ambientação sonora completa, com barulhos de determinados elementos acompanhados de uma trilha sonora. Por fim, é também possível gerar vozes realistas do zero, indicando sotaque e tom de fala.

Segundo a Nvidia, a plataforma usa 2,5 bilhões de parâmetros e é capaz de produzir sons totalmente inéditos, fazendo combinações inexistentes em outras bases de dados ou IA.

Ela foi treinada com uma base de conteúdos armazenada em sistemas da Nvidia que rodam a partir de múltiplas GPUs H100. A companhia não explica quais são as fontes utilizados, mas a possível infração a direitos autorais e coleta sem autorização de outras plataformas já gerou polêmicas no setor.

smart people are cooler

Tecnologia, negócios e comportamento sob um olhar crítico.

Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo

Fontes

Você sabia que o TecMundo está no Facebook, Instagram, Telegram, TikTok, Twitter e no Whatsapp? Siga-nos por lá.