De acordo com um artigo publicado pela Google neste mês dezembro, a empresa já tem uma solução para converter eletronicamente texto em voz de forma completamente natural. Isto é, não é mais possível distinguir uma foz humana de uma voz gerada por computador. A companhia conseguiu isso utilizando múltiplos sistemas de Inteligência artificial, mas a “cereja do bolo” é o Tacotron 2.
O Tacotron 2 usa redes neurais profundas para traduzir texto escrito em um “espectrograma”, um tipo de gráfico que organiza ondas sonoras em uma linha temporal. O sistema consegue inclusive registrar entonação de vírgulas, pontos e até mesmo palavras em caixa alta. O elemento gerado é então enviado para um segundo sistema de inteligência artificial, o WaveNet, que também utiliza redes neurais profundas. O WaveNet então traduz as informações do espectrograma em voz.
Tecnologia, negócios e comportamento sob um olhar crítico.
Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo
Para conferir os resultados da Google, você pode acessar este link e executar alguns dos áudios gerados pelo sistema inteligente. Nós também incluímos uma pequena comparação entre pequenas frases faladas pela IA da Google e uma sentença idêntica gravada a partir da voz de uma pessoa real. A empresa não explicou qual opção é a humana e qual é a máquina, mas talvez as identificadas como “Gen” sejam as gravações reais da atriz de voz.
É curioso notar que o WaveNet é, na verdade, um produto desenvolvido pela DeepMind, uma subsidiária da Alphabet — dona da Google — dedicada exclusivamente à pesquisa em inteligência artificial. Esse sistema já está em uso no Google Assistente, mas ainda não sabemos quando ele será combinado ao Tacotron 2 nessa ferramenta.
Também vale a pena considerar que a Google explicou que o Tacotron 2 só funciona no momento com a voz da mulher que você ouviu nos exemplos. Quando a empresa precisar de uma nova voz, seja feminina ou masculina, será necessário treinar a inteligência artificial novamente.
Categorias