Embora a pontuação perfeita para o arcade original de Pac-Man já tenha sido atingida por jogadores humanos há algumas décadas, seu sucessor espiritual seguia imbatível nesse quesito. Até mesmo sistemas de inteligência artificial tinham problemas com o game devido ao seu aspecto extremamente imprevisível. A Microsoft, no entanto, não se deixou abater pelo desafio e utilizou uma empresa sob seu comando para finalmente atingir os 999.900 pontos de Ms. Pac-Man nesta semana.
O feito foi fruto do trabalho da equipe da Maluuba, uma companhia especializada em deep learning que foi adquirida pela gigante de Redmond em janeiro deste ano. Para conseguir vencer de uma vez o título que estrela a versão feminina do Pac-Man, o time se baseou em experiências passadas no ramo de “IA vs games” e escolheu recorrer a uma estratégia de “dividir para conquistar” para fazer com que um grande problema se tornasse, na verdade, uma série de desafios e decisões bem menores.
A DeepMind AI da Google, por exemplo, só conseguiu detonar 49 jogos de Atari, em 2015, com uma tática de força bruta, recebendo um feedback positivo ou negativo ao final de cada ação ou tentativa dentro do game. Como isso dificilmente daria certo em Ms. Pac-Man – muito por conta de seu estilo mais caótico e aleatório –, a Maluuba decidiu dividir cada elemento da tela em um indivíduo específico que trabalha com o objetivo de zerar a obra. Sim, até mesmo os fantasmas, sem querer, contribuem para o sucesso da empreitada da heroína.
Com mais de 150 “agentes” em mãos, uma lista completa de prioridades e um sistema que oferece diferentes recompensam para diferentes ações – chamado de Hybrid Reward Architecture –, foi bem mais simples para a IA entender o que deveria fazer a cada passo do caminho. Cada um dos elementos sugere uma direção de movimentação, assim como uma intensidade para essa movimentação da protagonista – com tudo isso mudando e se alternando a cada segundo.
Uma espécie de supervisor que analisa as sugestões dos agentes
Para decidir em quem confiar, a plataforma seleciona uma espécie de supervisor que analisa se é realmente melhor seguir a dica de comer uma bolinha extra do que de fugir de um fantasma nas proximidades. Isso acaba equilibrando as pequenas tarefas individuais de cada agente com a preocupação coletiva do projeto. Para Harm Van Seijen, um dos pesquisadores da Maluuba, o conceito de aprendizado do Hybrid Reward Architecture pode ser expandido para previsões comerciais e até mesmo processamento natural de linguagem.
Fontes
Categorias