A maioria das pessoas não tem muita dificuldade em escutar alguém falando em um ambiente barulhento, “abafando” as outras vozes mentalmente e focando apenas na de um amigo, por exemplo. Mas para as máquinas, esse processo nunca foi tão simples. É por isso que pesquisadores do Google vem desenvolvendo um sistema de aprendizagem de máquina capaz de separar vozes e isolar apenas uma delas.
O sistema usa os rostos das pessoas que estão falando para funcionar, ficando limitado ao áudio de vídeos, mas isso não o torna menos impressionante. A equipe responsável publicou uma demonstração, usando o trecho de uma apresentação que mostra dois comediantes falando ao mesmo tempo. Nele, é possível ver a inteligência artificial focando em apenas uma pessoa por vez e apagando quase que completamente a fala do outro.
Tecnologia, negócios e comportamento sob um olhar crítico.
Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo
No entanto, essa não é a única possibilidade criada pelo sistema. Ele também pode ser aplicado na criação de legendas closed caption no YouTube ou para isolar a fala de alguém durante uma conferência em vídeo em um local público. A equipe diz que está analisando as oportunidades para utilizar a tecnologia em outros produtos do Google.
Fontes
Categorias