(Fonte da imagem: Reprodução/Science Daily)
Em nossa vida cotidiana, costumamos fazer associações entre diferentes objetos de maneira tão natural que muitas vezes nem percebemos como esse processo se desenvolve. Ao observar a imagem de um carro, por exemplo, nossa mente automaticamente liga o veículo a ruas e estradas — da mesma forma, a palavra “amarelo” nos traz à mente a cor correspondente, somente para citar alguns exemplos.
No entanto, esse processo que é tão natural para a fisiologia humana se mostra algo bastante complexo para dispositivos eletrônicos, cuja programação limita a maneira como eles conseguem “pensar” o mundo. Levando em isso em consideração, pesquisadores da Universidade Carnegie Mellon criaram uma máquina conhecida como “Never Ending Image Learning”, ou simplesmente NEIL.
Aprendendo a trabalhar com o senso comum
O equipamento tira proveito de avanços recentes que permitem a programas de computador identificar e classificar objetos presentes em imagens e caracterizar cenas baseadas em atributos como cores, iluminação e materiais, processo que ocorre sem qualquer supervisão humana. Todos esses dados são combinados para aumentar a capacidade que o computador tem de entender o mundo visual e desenvolver aquilo que chamamos de “senso comum”.
Para isso, o NEIL tenta estabelecer relações entre aquilo que foi analisado para obter informações que são conhecidas pela maioria das pessoas, por mais que elas não sejam expressadas normalmente. Por exemplo, a máquina pode ligar tratores a fazendas, estabelecer que gansos apresentam semelhanças com patos ou até mesmo perceber que, embora a cor preta normalmente seja associada a ovelhas em conversas, esses animais são tipicamente brancos.
(Fonte da imagem: Reprodução/Carnegie Mellon University)
“Imagens constituem a melhor maneira de aprender propriedades visuais”, afirma Abhinav Gupta, professor assistente do Instituto de Robótica da Carnegie Mellon. “Imagens nos dão muita informação baseada no senso comum relacionado ao mundo. As pessoas aprendem isso naturalmente, algo que também deve acontecer nos computador graças ao NEIL”, complementa.
O projeto, financiado pela Google e pelo Escritório de Pesquisa Naval dos Estados Unidos, está funcionando desde o dia 15 de julho deste ano e já analisou aproximadamente 5 milhões de imagens, a partir das quais foram estabelecidas meio milhão de classificações e pelo menos 3 mil associações baseadas no senso comum.
Um dos motivos que levaram à criação do NEIL foi o desejo de criar o maior banco de dados do mundo estruturado a partir de conhecimentos visuais — um lugar no qual objetos, cenas, ações, atributos e relações contextuais estão devidamente identificados e catalogados. “O que aprendemos nos últimos 5 a 10 anos de pesquisa nessa área é que quando mais dados você tiver, melhor esse processo fica”, explica Gupta.
Interação humana mínima
O NEIL não é o primeiro projeto a possuir um objetivo tão ambicioso. Anteriormente, iniciativas como a ImageNet e a Visipedia tentaram realizar a compilação de informações semelhantes, mas falharam por depender muito da assistência humana, algo que acabava provocando lentidão no processo devido à grande escala desses projetos — somente o Facebook atualmente hospeda mais de 200 bilhões de imagens.
(Fonte da imagem: Reprodução/NEIL)
Cientes disso, os pesquisadores da Carnegie Mellon desenvolveram seus softwares para permitir que eles aprendessem sozinhos como identificar e realizar as ligações entre diferentes objetos. Segundo Abhinav Shrivastava, estudante de pós-doutorado em robótica pela instituição, a interferência humana só é necessária em poucas situações como forma de corrigir algum erro — como a associação da palavra “pink” (rosa) à cantora e não à cor feita por uma pesquisa no Google Image, por exemplo.
“As pessoas nem sempre sabem o que ou como ensinar um computador”, observa o pesquisador. “Mas humanos são muito bons em dizer às máquinas quando elas estão erradas”, complementa. Além disso, os cientistas também são os responsáveis por dizer ao NEIL quais categorias de objetos, cenas e contextos ele deve pesquisar e analisar.
Mesmo com esse grande nível de controle, o software utilizado já surpreendeu os envolvidos no projeto mais de uma vez. Ao procurar pela palavra “maçã”, por exemplo, foi possível prever associações com a fruta e com a empresa de mesmo nome (Apple). Já ao pesquisar o termo “F-18”, os cientistas não só se depararam com o avião militar de mesmo nome, mas também com a classe F-18 de catamarãs, designação dada a barcos com dois cascos (também conhecido como “bananas”).
Pesquisa em constante evolução
Conforme o projeto progride, o NEIL deve ganhar a capacidade de desenvolver novas subcategorias como forma de estabelecer relações cada vez mais precisas: a palavra “triciclo” pode ganhar subdivisões relacionadas a adultos, crianças e veículos motorizados, enquanto o termo “carro” pode ser associado a diferentes fabricantes e modelos.
(Fonte da imagem: Reprodução/BBC UK)
Segundo os responsáveis pela iniciativa, atualmente o sistema já começa a aprender ligações típicas ao senso comum sem qualquer auxílio — como o fato de zebras serem naturais das savanas e que geralmente as bolsas de valores são lugares cheios de pessoas. Para isso, atualmente são reservados nada menos que 200 núcleos de processamento, que devem demorar um tempo considerável para terminar o processo (que, se o nome do projeto for levar a sério, nunca deve ser realmente finalizado).
Através do site oficial do NEIL é possível acompanhar o avanço das descobertas feitas pelos pesquisadores e conferir as diversas associações feitas até o momento. Além disso, você mesmo pode contribuir para os estudos através do campo “Train a Concept” (Treinar um conceito), que permite enviar mensagens alertando sobre possíveis problemas nos dados obtidos pelo sistema.
Categorias