A Meta revelou nesta sexta-feira (16) o Voicebox, mais novo avanço da dona do Facebook em inteligência artificial generativa. A tecnologia é capaz de converter texto em fala, realizando um trabalho semelhante ao que o Dall-E faz com a descrição textual e as imagens.
Treinado com mais de 50 mil horas de áudio, incluindo falas gravadas e transcrições de audiolivros de domínio público, o mecanismo pode “produzir clipes de áudio de alta qualidade”, de acordo com a big tech. Mutilíngue, o modelo gera falas em seis idiomas, entre os quais o português.
Tecnologia, negócios e comportamento sob um olhar crítico.
Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo
Ainda conforme a empresa, os testes mostraram que os modelos de reconhecimento de fala treinados em fala sintética criada pela IA generativa funcionam quase tão bem quanto aqueles treinados em fala real. O Voicebox também demonstrou uma degradação da taxa de erro menor que a de concorrentes como Vall-E e YourTTS.
A tecnologia pode ser usada em diferentes tarefas.Fonte: Meta/Divulgação
O conversor de texto em fala da Meta poderá ser utilizado para ajudar criadores na geração de clipes de áudio e pessoas cegas a ouvir mensagens escritas, além de permitir que o usuário “fale” qualquer idioma reproduzindo sua própria voz. O sistema pode ainda fornecer vozes mais naturais a assistentes virtuais e a personagens no metaverso.
Edição de áudio e remoção de ruídos
Além de converter texto em áudio, o Voicebox também é capaz de realizar várias outras tarefas. Uma delas é a edição dos clipes de áudio, da mesma forma que alguns softwares fazem, otimizando o trabalho de pequenos ajustes e correções na gravação.
Caso o usuário identifique um trecho da fala que tenha sido interrompido por um latido de cachorro ou qualquer outro tipo de ruído, por exemplo, pode cortar esta parte e instruir a IA a gerar novamente aquele pedaço, sem a necessidade de regravar todo o conteúdo. A função permite ainda substituir palavras pronunciadas de forma errada.
A IA generativa da Meta também faz edições de áudio.Fonte: Meta/Divulgação
Usando uma amostra de fala de apenas dois segundos, o sistema também consegue combinar o estilo do áudio original com o texto que será convertido, mantendo o estilo da voz original no conteúdo gerado pela tecnologia. Como isso é feito em qualquer um dos idiomas compatíveis, será possível usá-lo para se comunicar de forma autêntica e natural em outras línguas.
Segundo a Meta, o aplicativo foi desenvolvido com base no modelo Flow Matching, que permite treinar em dados mais diversos e em uma escala muito mais ampla. Os idiomas suportados, no momento, são inglês, espanhol, francês, alemão e polonês, além do português.
Quando o Voicebox estará disponível?
Por enquanto, a Meta não vai disponibilizar o Voicebox para o público em geral nem compartilhará o seu código-fonte. A gigante da tecnologia alegou preocupações relacionadas a usos indevidos da tecnologia para mantê-la restrita, neste momento.
Futuramente, o mecanismo de IA generativa pode ser integrado a assistentes digitais e a modelos de próteses utilizadas por pacientes com danos nas cordas vocais, antes de ser liberado para todos. É possível conferir a tecnologia em funcionamento no site da companhia.
Categorias