Meta lança AudioCraft, IA generativa que cria músicas e sons a partir de textos

02/08/2023 às 11:55

2 min de leitura

Imagem: AllisonGinadaio/Getty Images

A Meta anunciou, nesta quarta-feira (02), o lançamento do AudioCraft, uma plataforma de inteligência artificial (IA) generativa que cria sons e músicas a partir de textos. A ferramenta está disponível para fins de pesquisa e será liberada para todos em breve.

De acordo com a big tech, o AudioCraft servirá para vários públicos. Músicos profissionais poderão explorar novas composições e batidas, desenvolvedores de jogos poderão criar efeitos sonoros e empreendedores poderão adicionar trilhas sonoras em suas publicações no Instagram, por exemplo.

As primeiras amostras de áudio divulgadas pela Meta mostram um pouco como a tecnologia funciona. O sistema criou áudios com qualidade a partir de inputs simples de textos como “Assobiando com vento soprando” e “Sirenes e um zumbido de motor se aproximam e passam”. Confira, abaixo, alguns dos resultados:

Leia mais: IA generativa da Meta é lançada e deve chegar aos celulares em 2024

Além dos sons naturais, o AudioCraft criou batidas musicais, que são mais complexas. Em outra amostra, a Meta divulgou um trecho de 30 segundos que foi criado após o input do texto “faixa de dança pop com melodias cativantes, percussões tropicais e ritmos animados, perfeito para a praia”.

Em uma publicação em seu blog oficial, a companhia pontuou que a inovação é mais fácil de trabalhar do que outros modelos generativos para áudio. Apesar de não citar nominalmente, a empresa se referiu a iniciativas como o Jukebox, da OpenAI, e o MusicLM, do Google.

Veja também: Ariana Grande cantando sertanejo? Entenda o fenômeno de covers de IA

“Com o AudioCraft, simplificamos o design geral de modelos generativos para áudio em comparação com trabalhos anteriores no campo - dando às pessoas a receita completa para brincar com os modelos existentes que a Meta vem desenvolvendo nos últimos anos, além de capacitá-los a ultrapassar os limites e desenvolver seus próprios modelos”, diz trecho do texto.

Como o AudioCraft foi treinado?

O AudioCraft é composto por três modelos: MusicGen, AudioGen e EnCodec. O primeiro foi treinado com músicas licenciadas e de propriedade da Meta, e por isso gera músicas a partir de prompts de texto.

No caso do AudioGen, a IA foi treinada a partir de efeitos sonoros públicos, deixando a ferramenta apta para criar áudios como cantos de pássaros também a partir de prompts de texto.

Dia Mundial do Rock: a IA pode ser útil para criar novos hits e bandas?

Já o EnCodec é um decodificador de gravações sonoras que permite resultados de alta qualidade mesmo com arquivos comprimidos. Este modelo, anunciado no ano passado, recebeu melhorias.

Mesa de som O AudioCraft só precisa de inputs de texto para criar músicas, trilhas sonoras, sons naturais e mais

“O AudioCraft funciona para geração e compactação de música e som - tudo no mesmo lugar. Como é fácil construir e reutilizar, as pessoas que desejam construir melhores geradores de som, algoritmos de compressão ou geradores de música podem fazer tudo na mesma base de código e construir sobre o que outros já fizeram”, explicou a Meta.

Para melhorar as soluções, o AudioCraft está com código aberto para que pesquisadores e desenvolvedores possam ajudar a melhorar a ferramenta.