As redes neurais têm usado o aprendizado de máquina e profundo para criar modelos realistas de pessoas em um nível nunca antes visto. Agora, um novo experimento de uma equipe de pesquisadores da Universidade Cornell vai povoar suas noites de pesadelos: eles conseguiram chegar a um “modelo de cabeça falante personalizado” a partir de apenas uma amostra de imagem.
Normalmente, para chegar a um resultado avançado de simulação de movimentos, é preciso treinar o algoritmo com uma série de conjuntos de dados de uma pessoa. A novidade aqui é que a equipe conseguiu resultados impressionantes a partir de um único retrato, desenho ou still.
Tecnologia, negócios e comportamento sob um olhar crítico.
Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo
Veja:
Another great paper from Samsung AI lab! @egorzakharovdl et al. animate heads using only few shots of target person (or even 1 shot). Keypoints, adaptive instance norms and GANs, no 3D face modelling at all.
— Dmitry Ulyanov (@DmitryUlyanovML) 22 de maio de 2019
?? https://t.co/Xk5D4WccpD
?? https://t.co/SxnVfY72TT pic.twitter.com/GjVrJbejT0
Como isso é feito?
Isso nunca foi realizado antes na rede geradora adversária (GAN), expoente no setor. Basicamente o projeto usa um grande conjunto de dados de vídeos e enquadra o modelo captado em apenas um frame nos que já foram vistos nos sistemas anteriores.
“O sistema é capaz de inicializar os parâmetros do gerador e do discriminador de uma maneira específica, de modo que o treinamento pode ser baseado em apenas algumas imagens e feito rapidamente, apesar da necessidade de sintonizar dezenas de milhões de parâmetros. Mostramos que tal abordagem é capaz de aprender modelos realistas de ‘cabeças falantes’ de novas pessoas e mesmo de retratos.”
Ainda não há muita repercussão dessa novidade, mas pode aguardar que esse assunto ainda vai render muito, ainda mais com a popularidade dos DeepFakes.
Categorias