A DeepMind do Google anunciou o Veo 2, sua nova inteligência artificial geradora de vídeos, nesta segunda-feira (16). O novo modelo pode criar clipes com até mais de dois minutos de duração chegando a resoluções de até 4K (4096x2160p).
O novo modelo introduz "compreensão aprimorada" da física do mundo real — falha recorrente nas gerações da Sora —, e melhor entendimento das nuances de movimentos e expressões humanas.
Tecnologia, negócios e comportamento sob um olhar crítico.
Assine já o The BRIEF, a newsletter diária que te deixa por dentro de tudo
Segundo o Google, o Veo 2 entende aspectos únicos de cinematografia, como gêneros, lentes de câmeras e efeitos cinematográficos. A empresa menciona a capacidade de adicionar efeitos de câmeras de 18 mm; bem como ângulos específicos de captura.
Teoricamente, o Veo 2 pode gerar vídeos em resolução 4K e com até 2 minutos de duração. Isso faz do modelo do Google 4x superior em quantidade de pixels e com gerações com duração até 6x maior do que a Sora, da OpenAI.
Porém, essa vantagem é apenas teórica: o VideoFX, ferramenta de testes no qual o Veo 2 está atualmente disponível, pode gerar vídeos em resolução 720p e de até 8 segundos de duração. A solução da OpenAI pode produzir clipes em Full HD e de até 20 segundos.
Alucinações ainda acontecem
Ainda que o modelo esteja melhor em vários aspectos, o Veo 2 ainda é propenso a alucinações. Conforme ressalta o Google, a IA pode alucinar em detalhes, como dedos extras e objetos inesperados. "O Veo 2 produz [as alucinações] com menos frequência, tornando os resultados mais realistas", defendeu a Gigante das Buscas.
A segurança também é o foco do Google. A empresa está "intencionalmente medindo a ampliação da disponibilidade do Veo" para identificar e entender a qualidade e a confiabilidade da ferramenta.
Nesse sentido, o Veo 2 integra a marca d"água própria, do SynthID, em cada resultado. Esses marcadores são invisíveis, mas não são infalíveis.
De onde vêm os dados?
Outro detalhe deixado de lado no anúncio é a base de dados utilizada para treinar o modelo. Não se sabe de onde o Google extraiu os vídeos para alimentar o Veo 2, mas o YouTube é uma das possíveis fontes.
Segundo o vice-presidente de produto da DeepMind, Eli Collins, a IA é treinada em usando pares de vídeos e descrições visuais.
As funções do Veo 2 serão integradas à ferramenta de geração de vídeo do Google Labs, VideoFX. A companhia disse ter expandido o programa para mais usuários.
Nesse período de testes, o uso da ferramenta é gratuito. Porém, é necessário de inscrever na fila de espera. Você pode fazer isso no site oficial do VideoFX.
Fontes
Categorias