Uma das coisas mais surpreendentes que nosso cérebro é capaz de fazer o tempo todo sem notarmos é a capacidade que ele tem de, ao entrarmos em uma sala, conseguir reconhecer objetos e mapear todo o local, inclusive recriando a mesma cena de diversos ângulos — tudo isso apenas com um rápido olhar. Isso é extremamente difícil de ser reproduzido em uma máquina e a Google vem tentando com sua rede neural DeepMind, a partir de uma experiência que pode transformar imagens 2D em ambientes 3D.
Ao treinar uma inteligência artificial (IA), os pesquisadores costumam cadastrar um grande amontoado de dados, todos devidamente categorizados. Só que isso não é o suficiente para fazer com que ela “veja” como nós podemos ver. A abordagem do novo projeto é diferente e, basicamente, “ensinar a pescar” ao invés de “trazer o peixe”.
Tecnologia, negócios e comportamento sob um olhar crítico.
Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo
“A razão pela qual precisamos fazer isso é porque a mesma realidade pode ser bem diferente, ao ser observada de pontos de vista distintos. Por exemplo, se você olhar para mim frontalmente, a luz estará à minha direita. E se você olhar para mim pelas costas, a luz estará à minha esquerda. Atualmente temos dois problemas com relação a isso. Primeiro, os processos atuais consomem muito tempo e processamento e, segundo, ao categorizar os dados, os humanos não conseguem capturar tudo o que pode gerar interesse em uma cena”, explica Ali Eslami, que faz parte da equipe de cientistas do DeepMind.
Além disso, as redes neurais costumam ter problemas para aplicar as lições aprendidas em uma cena para outra. A chave para superar isso é, então, criar uma IA que possa “compreender” os arredores.
Entra a “rede de consulta geral”
É aí que entra a chamada General Query Network (GQN) ou “rede de consulta geral”. É uma rede neural que aprende tudo apenas por meio da observação e não a partir de um banco de dados inserido por cientistas. Assim, ela é capaz de ter um noção da cena mais próxima do real, podendo aplicar o aprendizado em novas situações.
Após expor a QGN aos ambientes controlados, os pesquisadores fizeram o mesmo a outros gerados aleatoriamente. Ela foi capaz de “imaginar” a cena por diferentes ângulos e de criar amostras tridimensionais a partir de imagens em 2D. E foi além: conseguiu identificar e classificar objetos sem nenhuma intervenção humana, inclusive sem a necessidade de dados ou categorias cadastradas previamente.
O projeto ainda conta com limitações, pois tudo foi simulado apenas em cenas produzidas em laboratório e ainda não dá para saber como a GQN reage a situações do mundo real. Mas, de acordo com os responsáveis, esse é um grande avanço para o setor. “Embora ainda haja muita pesquisa a ser feita antes que nossa abordagem esteja pronta para ser implementada na prática, acreditamos que esse trabalho seja um passo considerável para o entendimento totalmente autônomo de uma cena.”
Fontes
Categorias