O Google anunciou nesta quarta-feira (6) o seu mais recente avanço em inteligência artificial (IA). Chamado de Gemini, o novo grande modelo de linguagem (LLM) multimodal, de acordo com a empresa, é capaz de superar o GPT-4, da OpenAI, utilizado no popular chatbot ChatGPT.
O novo modelo é capaz de “compreender, operar e combinar diferentes tipos de informação”, baseando-se em texto, áudio, imagem, vídeo e linguagens de programação. De acordo com Demis Hassabis, CEO e cofundador do Google DeepMind, a criação do Gemini se deu para que ele seja menos parecido com “um software inteligente e mais algo útil e intuitivo”.
Tecnologia, negócios e comportamento sob um olhar crítico.
Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo
A empresa também ressalta que o Gemini é o modelo mais flexível criado por ela até agora. Ele poderá ser disponibilizado, por exemplo, tanto em data centers quanto em dispositivos móveis, como celulares. Atualmente no modelo Gemini 1.0, ele será distribuído em três tamanhos diferentes:
Gemini Ultra: o maior modelo e capaz de lidar com “tarefas altamente complexas”;
Gemini Pro: o modelo ideal para escalar um grande conjunto de tarefas;
Gemini Nano: a versão menor e mais eficiente para atividades rodando direto em dispositivos, como em celulares.
O Google Gemini 1.0 está dividido em três modelos diferentes.
O Gemini já pode ser utilizado a partir de hoje no Google Bard, em 170 países (incluindo o Brasil), mas somente no idioma inglês. Em 2024, o modelo mais poderoso será incorporado ao chatbot e mais idiomas também deverão ser incorporados “em breve”.
Ele também já chegou ao Google Pixel 8 Pro e será disponibilizado diretamente na busca do Google, no Chrome e em outros serviços e produtos da empresa no futuro. No celular da companhia, o Gemini Nano poderá realizar tarefas no aplicativo de gravação de áudio, sumarizando os arquivos, e também na função Smart Reply do Gboard no WhatsApp.
O Gemini Ultra, que será lançado no ano que vem, será disponibilizado inicialmente para alguns clientes, desenvolvedores, parceiros e especialistas em segurança e responsabilidade antes de chegar a outras pessoas. A ideia é coletar feedbacks e realizar correções no produto.
O que o Google Gemini pode fazer
O Gemini, explica o Google, foi projetado para ser nativamente multimodal, o que pode ajudá-lo "a compreender e raciocinar perfeitamente sobre todos os tipos de informações desde o início".
Ele pode, por exemplo, extrair insights "de centenas de milhares de documentos", cita a empresa, misturando a leitura, filtragem e compreensão das informações para fornecer informações em diferentes campos.
Não somente, uma novidade do modelo é a capacidade de reconhecer e compreender, ao mesmo tempo, textos, imagens, áudios e mais. Dessa forma, ele pode chegar a respostas mais contextuais a partir de perguntas mais complexas.
Mais confiável que o ChatGPT?
Segundo o Google, o Gemini teve êxito em 30 de 32 benchmarks acadêmicos utilizados na pesquisa e desenvolvimento de grandes modelos de linguagem. A versão Ultra, com uma pontuação de 90%, seria o primeiro modelo a superar especialistas humanos em MMLU (massive multitask language understanding). Entre os critérios estão matemática, física, história, direito, medicina e ética.
A proposta, garante a empresa, é de que o Gemini possa "pensar com mais cuidado antes de responder perguntas difíceis".
Segundo um comparativo divulgado pela companhia, em relação ao GPT-4, o Gemini Ultra supera o modelo da OpenAI em capacidades de texto, raciocínio, matemática e programação. Em testes multimodais, a nova ferramenta também se mostrou mais confiável em testes que envolvem imagens, vídeos e áudios.
Categorias