A Microsoft desenvolveu um sistema de conversão de texto em fala baseado numa inteligência artificial que exige muito menos treino do que outros sistemas criados para a mesma função.
Sistemas de conversão de texto em fala não são uma novidade. O Google Tradutor é uma das ferramentas que mais contribuíram para popularizar o recurso, que também está presente em sistemas operacionais há vários anos, como parte das funcionalidades de acessibilidade. Embora as vozes desses sistemas não sejam perfeitas, eles costumam suprir as necessidades dos usuários, que é auxiliá-los na pronúncia de palavras ou ler o conteúdo exibido na tela.
Tecnologia, negócios e comportamento sob um olhar crítico.
Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo
O que diferencia o sistema de conversão de texto em fala da Microsoft de outros é o nível de eficácia que ele atingiu com tão pouco treinamento. A IA foi criada com pesquisadores chineses e adquiriu um desempenho sonoro realista utilizando apenas 200 amostras de voz, o equivalente a 20 minutos de gravação, e suas transcrições.
Treinamento mínimo, sucesso (quase) máximo
Este conteúdo mínimo de treinamento foi suficiente para que o sistema alcançasse 99,84% de inteligibilidade de palavras. Isso foi possível graças à utilização de redes neurais profundas que possuem funcionamento parecido com os neurônios de nosso cérebro, chamadas de Transformers, e que ajudam a processar as informações com mais eficiência. Para otimizar o aprendizado da IA, o sistema conta com um recurso de remoção de ruídos, que filtra as amostras de voz usadas no treinamento.
O resultado não é perfeito, já que a voz ainda soa um pouco robótica. Contudo, o projeto ainda impressiona por ter simplificado todo o processo de treinamento para a geração de um sistema de conversão de texto em fala, o que pode tornar estes sistemas mais acessíveis para empresas pequenas e até mesmo pessoas físicas.
Fontes
Categorias