A ferramenta com inteligência artificial da Microsoft capaz de clonar a voz de pessoas é perigoso demais para ser lançado para o público, apontam pesquisadores envolvidos com o projeto. O modelo agora será utilizado exclusivamente para pesquisas.
Conhecido como VALL-E 2, o modelo é um codificador neural de linguagem, um tipo de IA que usa técnicas de redes neurais para codificar e decodificar informações linguísticas.
Tecnologia, negócios e comportamento sob um olhar crítico.
Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo
"Atualmente, não temos planos de incorporar o VALL-E 2 em um produto ou expandir seu acesso ao público", anunciou a Microsoft em seu site oficial. "Isso pode acarretar riscos potenciais no uso indevido do modelo, como falsificação de identificação de voz ou personificação de um locutor específico", complementou.
O modelo VALL-E 2 é capaz de copiar a voz de alguém com base em uma amostra real.Fonte: GettyImages
Diferente do VALL-E original lançado em janeiro de 2023, o VALL-E 2 consegue sintetizar vozes que não foram apresentadas durante o treinamento, sintetizando vozes com base em um pequeno clipe de áudio, copiando entonação e vários detalhes da voz original.
Porém, a Microsoft reconhece que o modelo pode ter utilidade em outros contextos, como educação, entretenimento, jornalismo, conteúdo autoral ou acessibilidade.
A empresa, no entanto, informa que o modelo ainda não é perfeito. "Embora o VALL-E 2 possa falar com uma voz semelhante à do talento vocal, a semelhança e a naturalidade dependem da duração e da qualidade do prompt de fala, do ruído de fundo, bem como de outros fatores", ressaltou a empresa.
VALL-E 2 não é o único modelo da categoria
Ainda que a Microsoft tenha entendido o risco de lançar uma ferramenta como a VALL-E 2 para o público, outras empresas testam IAs parecidas. Exemplo disso é a OpenAI, que em abril apresentou o Voice Engine, modelo capaz de copiar a voz de alguém com apenas 15 segundos de demonstração.
De forma similar, a OpenAI entende que a tecnologia pode ser usada para fins educativos, ou para proporcionar acessibilidade. A empresa percebe a ferramenta como uma solução para pessoas condições que prejudicam ou impedem a fala.
Atualmente, há soluções comerciais que exploram o uso de IA para clonar vozes de pessoas reais. O AI Assistant do Truecaller, por exemplo, usa o Microsoft Azure AI Speech para responder chamadas com voz.
Fontes
Categorias