O Google confirmou que fez modificações importantes em um dos vídeos demonstrativos do Gemini. O mais recente modelo de linguagem da empresa via inteligência artificial (IA) foi revelado nesta quarta-feira (6).
Essa foi considerada a demonstração mais impressionante do Gemini. Porém, segundo a Bloomberg, a companhia "encenou" boa parte do que é visto no vídeo que mostra um usuário interagindo com o Gemini por voz, com a IA reconhecendo por uma câmera elementos desenhados em um pedaço de papel.
Tecnologia, negócios e comportamento sob um olhar crítico.
Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo
Isso não significa que a plataforma não é capaz de reconhecer áudio, imagens e comandos de texto, além de ter respostas complexas para as questões feitas. Entretanto, no uso real da IA, a interação não é tão fluida como foi mostrada no vídeo.
O que a Google alterou na demo do Gemini
De acordo com a reportagem da Bloomberg, a descrição da demonstração do Gemini no YouTube já traz um texto que sugere alterações. "Para os fins dessa demo, a latência foi reduzida e as respostas do Gemini foram encurtadas por motivos de concisão", diz o recado.
Procurada mais tarde, a companhia confirmou, entretanto, que mais modificações foram feitas no que foi colocado no ar. Na verdade, os comandos de voz mostrados no vídeo foram feitos por texto. Além disso, o Gemini recebeu como material visual imagens estáticas dos objetos, não um vídeo em tempo real.
No vídeo, a IA reconhece que o desenho é um pato de uma cor não convencional para o animal.Fonte: Google
"A narração do usuário envolve trechos reais dos prompts realmente utilizados para produzir as respostas do Gemini que você viu", diz o porta-voz da empresa. Ou seja, na prática, o comando de voz e a interação em tempo real durante o vídeo simplesmente não existiu do jeito que foi mostrado.
Na questão da latência, é provável que, na prática, cada resposta do Gemini leve poucos segundos para ser construída e liberada. Enquanto o clipe dá a entender que tudo é quase em tempo real, como se fosse uma conversa natural com outro ser humano.
Questionada sobre a encenação pelo The Verge, o Google respondeu a partir de um comunicado do vice-presidente de pesquisa da DeepMind e responsável pelo projeto, Oriol Vinyals. A postagem foi feita no X, o antigo Twitter.
Really happy to see the interest around our “Hands-on with Gemini” video. In our developer blog yesterday, we broke down how Gemini was used to create it. https://t.co/50gjMkaVc0
— Oriol Vinyals (@OriolVinyalsML) December 7, 2023
We gave Gemini sequences of different modalities — image and text in this case — and had it respond… pic.twitter.com/Beba5M5dHP
Segundo o pesquisador, o vídeo apenas "ilustra como poderiam ser as experiências de usuário multimodais construídas com o Gemini" e a empresa fez o clipe "para inspirar os desenvolvedores".
Alguns dos primeiros testes com o chatbot Bard já com o Gemini incorporado também não foram bem recebidos por parte da comunidade, que denunciou respostas erradas e conteúdos incompletos. O Google prometeu atualizações e uma versão mais avançada da plataforma para o ano que vem.
Categorias