Gemini: Google admite que 'encenou' parte da demonstração de nova IA

08/12/2023 às 11:45

2 min de leitura

Imagem: Google

O Google confirmou que fez modificações importantes em um dos vídeos demonstrativos do Gemini. O mais recente modelo de linguagem da empresa via inteligência artificial (IA) foi revelado nesta quarta-feira (6).

Essa foi considerada a demonstração mais impressionante do Gemini. Porém, segundo a Bloomberg, a companhia "encenou" boa parte do que é visto no vídeo que mostra um usuário interagindo com o Gemini por voz, com a IA reconhecendo por uma câmera elementos desenhados em um pedaço de papel.

Leia mais: Google divulga solução para recuperar arquivos perdidos no Drive

Isso não significa que a plataforma não é capaz de reconhecer áudio, imagens e comandos de texto, além de ter respostas complexas para as questões feitas. Entretanto, no uso real da IA, a interação não é tão fluida como foi mostrada no vídeo.

O que a Google alterou na demo do Gemini

De acordo com a reportagem da Bloomberg, a descrição da demonstração do Gemini no YouTube já traz um texto que sugere alterações. "Para os fins dessa demo, a latência foi reduzida e as respostas do Gemini foram encurtadas por motivos de concisão", diz o recado.

Procurada mais tarde, a companhia confirmou, entretanto, que mais modificações foram feitas no que foi colocado no ar. Na verdade, os comandos de voz mostrados no vídeo foram feitos por texto. Além disso, o Gemini recebeu como material visual imagens estáticas dos objetos, não um vídeo em tempo real.

Confira: Gemini Nano: conheça a versão para Android da IA mais poderosa do Google

No vídeo, a IA reconhece que o desenho é um pato de uma cor não convencional para o animal.Fonte: Google

"A narração do usuário envolve trechos reais dos prompts realmente utilizados para produzir as respostas do Gemini que você viu", diz o porta-voz da empresa. Ou seja, na prática, o comando de voz e a interação em tempo real durante o vídeo simplesmente não existiu do jeito que foi mostrado.

Na questão da latência, é provável que, na prática, cada resposta do Gemini leve poucos segundos para ser construída e liberada. Enquanto o clipe dá a entender que tudo é quase em tempo real, como se fosse uma conversa natural com outro ser humano.

Veja também: Google Bard incorpora novo modelo de linguagem Gemini, que já pode ser usado

Questionada sobre a encenação pelo The Verge, o Google respondeu a partir de um comunicado do vice-presidente de pesquisa da DeepMind e responsável pelo projeto, Oriol Vinyals. A postagem foi feita no X, o antigo Twitter.

Really happy to see the interest around our “Hands-on with Gemini” video. In our developer blog yesterday, we broke down how Gemini was used to create it. https://t.co/50gjMkaVc0

We gave Gemini sequences of different modalities — image and text in this case — and had it respond… pic.twitter.com/Beba5M5dHP
— Oriol Vinyals (@OriolVinyalsML) December 7, 2023

Segundo o pesquisador, o vídeo apenas "ilustra como poderiam ser as experiências de usuário multimodais construídas com o Gemini" e a empresa fez o clipe "para inspirar os desenvolvedores".

Alguns dos primeiros testes com o chatbot Bard já com o Gemini incorporado também não foram bem recebidos por parte da comunidade, que denunciou respostas erradas e conteúdos incompletos. O Google prometeu atualizações e uma versão mais avançada da plataforma para o ano que vem.