Após ter apresentado ao público um sistema que transforma texto em voz chamado Deep Voice há alguns meses, chegou a hora de seu sucessor
Em 2011, o empreendedor Marc Andreessen afirmou, em um artigo no The Wall Street Journal, que o software estava devorando o mundo. Seis anos depois, se pararmos para analisar, já é possível afirmar que, agora, é a inteligência artificial que está devorando o mundo.
Tecnologia, negócios e comportamento sob um olhar crítico.
Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo
A Baidu também está se embrenhando pelas maravilhas que a inteligência artificial pode realizar. Após ter apresentado ao público um sistema que transforma texto em voz chamado Deep Voice há alguns meses, chegou a hora de seu sucessor – o Deep Voice 2 – dar as caras mostrando melhorias consideráveis em comparação com a primeira versão.
Melhorias nítidas
A primeira versão já possuía características bastante impressionantes, como o fato de emitir sons assustadoramente parecidos com uma voz humana e de fazer o trabalho todo praticamente em tempo real. Para isso, a plataforma precisava ser “treinada” escutando várias horas de gravação de vozes, sendo capaz de aprende um tipo de fala por vez.
O sistema é capaz de replicar sotaques e outros detalhes do locutor usado como base
Com o Deep Voice 2, a Baidu dá um passo à frente com uma inteligência artificial muito mais avançada e capaz de realizar proezas impressionantes. O sistema pode aprender tendo como base apenas alguns minutos de áudio de voz e, mais impressionante ainda, é capaz de replicar sotaques e outros detalhes do locutor usado como base.
Aquele sotaque que você gosta
O padrão de aprendizado da inteligência artificial da Baidu é muito mais prático que o da Siri, por exemplo
O Deep Voice 2 também pode aprender a imitar nada menos que centenas de vozes, tons, nuances e sotaques diferentes em um único sistema. A grande vantagem é que ele faz isso praticamente sozinho, aprendendo o que há de comum em todas as vozes que escuta, criando um modelo geral de padrão de fala e usando as particularidades de cada uma para replicar sotaques específicos.
O padrão de aprendizado da inteligência artificial da Baidu é muito mais prático que o da Siri, por exemplo, a assistente pessoal da Apple. No caso dela, os programadores precisavam fornecer milhares de horas de gravação em um idioma e sotaque específicos e depois ajustar tudo manualmente para que ela fosse capaz de replicar vozes com particularidades.
Faz tudo sozinho
Andrew Gibiansky, cientista de pesquisa no Laboratório de AI da Baidu no Vale do Silício que trabalha no projeto Deep Voice, afirmou: “Forneça os dados certos e ele pode aprender por conta própria que tipo de características são importantes”.
Com esse tipo de tecnologia cada vez mais desenvolvida e avançada, não vai demorar até termos assistentes pessoas personalizadas nos idiomas, sotaques e até tons de voz que quisermos, inclusive com imitações perfeitas de celebridades e outras personalidades públicas.
Fontes
Categorias