Pesquisadores da Google se juntaram a cientistas da Universidade de Stanford, na Califórnia, para desenvolver juntos um software capaz de analisar uma imagem e descrevê-la por completo em vez de apontar apenas elementos isolados presentes nela.
Os algoritmos que estão sendo escritos pelo time funcionam através da junção de duas redes neurais: uma lida com o reconhecimento da imagem, enquanto a outra processa o texto de forma clara e precisa. O programa resultante dessa mescla de redes então interpreta o contexto dos elementos na imagem e gera uma legenda que descreva a situação retratada com uma precisão duas vezes maior do que qualquer outro projeto semelhante.
Ele é capaz de interpretar a imagem abaixo, por exemplo, e produzir a legenda “grupo de jovens jogando frisbee”, o que descreve perfeitamente a cena através de um texto plenamente compreensível também.
“Mas como isso funciona?”, você deve estar se perguntando. O programa é alimentado com imagens de referência e contextualizado com sentenças que a descrevam. Então, por meio da comparação analítica de textos e figuras, o sistema começa a detectar padrões que se repetem, os correlacionando com as variações destes mesmos padrões.
No entanto, há muito espaço para melhorias, uma vez que o software produz resultados com variados graus de precisão, dependendo da quantidade de referências que possui sobre cada tópico. Veja a montagem abaixo, que descreve os diversos níveis de acerto do programa.
Na primeira coluna, a descrição não possui erros, no caso dos jogadores de frisbee. Na segunda, há pequenos erros; por exemplo: a primeira figura é descrita como “dois cães brincando na grama”, quando na verdade há três. Na terceira, a descrição está errada, mas ainda se relaciona com a imagem, como a figura da scooter rosa, que recebeu a legenda “moto vermelha estacionada ao lado da estrada”. A última erra completamente o conteúdo: a placa cheia de adesivos, por exemplo, foi interpretada como “um refrigerador cheio de comidas e bebidas”.
Apesar dos erros, é impressionante ver o quanto a tecnologia já está desenvolvida, e sua a precisão só tende a aumentar conforme receber mais referências e detectar mais padrões. Segundo os especialistas, o software pode chegar ao ponto de identificar as pessoas através de reconhecimento facial e até mesmo analisar as filmagens de uma câmera de segurança e perceber padrões de comportamento que indiquem atividades suspeitas, já alertando automaticamente as autoridades. Isso não seria incrível?
Categorias