Software de reconhecimento da Google descreve imagens com frases completas

Programa desenvolvido em parceria entre a Google e a Universidade de Stanford está sendo treinado para melhorar precisão e já consegue descrever uma cena inteira apenas analisando seu conteúdo visual

Elias Nascimento

schedule19/11/2014, às 13:01

Fonte:

Imagem de Software de reconhecimento da Google descreve imagens com frases completas no site TecMundo

Pesquisadores da Google se juntaram a cientistas da Universidade de Stanford, na Califórnia, para desenvolver juntos um software capaz de analisar uma imagem e descrevê-la por completo em vez de apontar apenas elementos isolados presentes nela.

Os algoritmos que estão sendo escritos pelo time funcionam através da junção de duas redes neurais: uma lida com o reconhecimento da imagem, enquanto a outra processa o texto de forma clara e precisa. O programa resultante dessa mescla de redes então interpreta o contexto dos elementos na imagem e gera uma legenda que descreva a situação retratada com uma precisão duas vezes maior do que qualquer outro projeto semelhante.

smart_display

Nossos vídeos em destaque

Ele é capaz de interpretar a imagem abaixo, por exemplo, e produzir a legenda “grupo de jovens jogando frisbee”, o que descreve perfeitamente a cena através de um texto plenamente compreensível também.

undefined

“Mas como isso funciona?”, você deve estar se perguntando. O programa é alimentado com imagens de referência e contextualizado com sentenças que a descrevam. Então, por meio da comparação analítica de textos e figuras, o sistema começa a detectar padrões que se repetem, os correlacionando com as variações destes mesmos padrões.

No entanto, há muito espaço para melhorias, uma vez que o software produz resultados com variados graus de precisão, dependendo da quantidade de referências que possui sobre cada tópico. Veja a montagem abaixo, que descreve os diversos níveis de acerto do programa.

undefined

Na primeira coluna, a descrição não possui erros, no caso dos jogadores de frisbee. Na segunda, há pequenos erros; por exemplo: a primeira figura é descrita como “dois cães brincando na grama”, quando na verdade há três. Na terceira, a descrição está errada, mas ainda se relaciona com a imagem, como a figura da scooter rosa, que recebeu a legenda “moto vermelha estacionada ao lado da estrada”. A última erra completamente o conteúdo: a placa cheia de adesivos, por exemplo, foi interpretada como “um refrigerador cheio de comidas e bebidas”.