Por que é tão difícil criar uma IA que gera vídeo?

5 min de leitura
Imagem de: Por que é tão difícil criar uma IA que gera vídeo?
Imagem: Google
Avatar do autor

Equipe TecMundo

Não importa para onde você olhe, as inteligências artificiais do tipo transformadores pré-treinados generativos (GPT, em inglês) estão por todo o lugar e fazem diferentes tarefas. Seja em desenhar (DALL-E), criar edições bacanudas de imagem (Lensa), conversar (ChatGPT) ou executar ações um pouco mais complexas (Auto-GPT): basta inserir um texto explicativo (prompt) na plataforma que a mágica acontece.  

A criação de vídeos é uma das últimas fronteiras a ser desbravada pelas IAs, apesar de haver ferramentas já estabelecidas em diversas atividades ligadas à criatividade. Esse é um campo que envolve desafios consideráveis, mas que deve trazer muita fama para empresas que acertarem primeiro a receita entre execução e imaginação. Veja só quais ferramentas existem e em qual etapas elas se encontram. 

 IA generativa de vídeo x criatividade 

Por que é tão complicado criar esse tipo de solução? Porque, via de regra, a produção de vídeo é um trabalho muito artístico e manual. Além da necessidade de ter um profissional para organizar “na unha” todas as partes da produção (da trilha aos efeitos), essa mídia envolve um número imenso de detalhes. Assim seria necessária a participação de não apenas uma, mas algumas IAs para atingirmos uma solução satisfatória. 

Para dar uma ideia, usamos o ModelScope, um dos poucos geradores de vídeo liberados. No caso, pedimos um vídeo de “um gato laranja dormindo em cima de um tapete verde” e ele nos entregou a amostra a seguir, que transformamos em GIF. O resultado até lembra um gato, mas está longe de ter o mesmo nível de qualidade que desejamos. 

Vídeo de gato IA

Stable Diffusion: pioneira em IA para vídeo

Apesar do lado negativo, existem outras empresas do mercado investidas nessa missão. A iniciativa mais famosa é a da Runway, mais conhecida por ser uma das firmas criadoras do gerador de imagem Stable Diffusion, o cérebro por trás do app Lensa.  

  • No início deste mês, o Runway liberou a primeira versão do seu modelo de inteligência Gen-1, que transforma textos em vídeos de curta duração. A empresa também disponibilizou para um público limitado a versão Gen-2, que deve ter um formato mais “versão final,” para ser testado e futuramente vendido no mercado.  

É possível que muito em breve serviços de streaming ou baseados em vídeo, como a Netflix, TikTok e YouTube, entrem nesse jogo quando ele estiver mais consolidado. A motivação? Ela mesmo, a financeira. 

Google e Meta pesquisam IA de vídeo 

A Google divulgou no ano passado resultados de pesquisas de duas ferramentas próprias de text-to-video: o Imagen Video e o Phenaki. Já a Meta exibiu amostras de seu Make-A-Video. 

 Imagen Video 

O Imagen Video usa um modelo de geração básico e uma sequência de modelos de super-resolução de vídeo espacial e temporal intercalados”, conforme palavras da empresa. 

O sistema inclusive é capaz de gerar uma série de produções 3D, com uma variedade de estilos artísticos: desde ultrarrealista até pintura. A qualidade, porém, ainda demonstra opacidade ou falhas em partes como olhos, pés e mãos. 

A solução produz inicialmente 16 quadros de 3fps na resolução 24x48. A partir desse conteúdo são executados outros modelos com super-resolução baseados em IA, que então ampliam o resultado para 128 quadros de 24fps, com resolução de 1280x768. 

IA de vídeo Google ImagenCaptura de amostras de vídeos gerados pelo Google Imagen, IA generativa da big techFonte: Google/Reprodução

Phenaki 

O Phenaki, por sua vez, foi desenvolvido por outra equipe da Google, para criação de conteúdo longo, a partir de instruções de um prompt detalhado, como: “uma câmera filma o céu a partir da água do oceano”.

As amostras desse sistema exibem uma qualidade inferior ao irmão Imagen Video, porém, ainda merecem destaque por gerar composições com um certo nível de complexidade – embora existam falhas em partes específicas. 

 Amostra IA PhenakiPhenaki é um modelo experimental de image-to-video da GoogleFonte: Phenaki/Reprodução

Make-A-Video 

O Make-A-Video funciona de modo similar ao Imagen Video e Phenaki, no entanto, perde na resolução máxima de suas criações, de 768x768, algo superado pela Google, como falamos ali em cima. 

Os vídeos podem ser criados a partir de três categorias: surrealista, realista e estilizada. O recurso possui também a capacidade de pegar uma imagem estática e convertê-la em vídeo. 

Make-a-Video IA da MetaA Meta vem pesquisando a geração de vídeos por IA por meio da ferramenta Make-A-VideoFonte: Meta/Reprodução Só que mal chegou no pedaço, o Make-A-Videoestava envolvido em polêmica. Um pesquisador de IA, chamado Simon Willison, descobriu que o conjunto de dados usados no projeto tinha mais de 10 milhões de vídeos extraídos do Shutterstock sem permissão. 

Google restringe acesso a modelo

Os sistemas da Google não estão disponíveis ao público. No entanto, podem ser integrados a alguns produtos, já que a companhia está empenhada em disputar esse mercado com a Microsoft. A Meta, por outro lado, liberou o modelo de modo restrito. Para "evitar” problemas, a empresa adiciona uma marca d’água sobre os conteúdos gerados 

Só que sabemos que isso não deve ser o suficiente para impedir que alguma produção com viés preconceituoso ou criminoso se espalhe por aí. Afinal é relativamente fácil eliminar esses selos.

Gerador automático de vídeo faciltará a vida

Por outro lado, segundo um artigo do Harvard Business Review, as futuras ferramentas que transformarão textos em vídeo devem resolver três belos problemas nesse mercado, mesmo que de forma diferente: 

  • aumentar a base de geração de conteúdo feita por usuários e fãs, já que a produção de vídeo exige certos conhecimentos que acabam virando obstáculo nesse tipo de tarefa;  
  • pode incentivar a produção de conteúdo, o que também é positivo para esses negócios; 
  • criar de cenas inteiras de um longa. Algo impossível no momento, mas que deve virar febre nos próximos anos. 

Regulação e o futuro da inteligência artificial 

E é claro que com uma nova (e potente) ferramenta, surgem novas (e importantes) responsabilidades. Aqui citaremos apenas dois pontos que devem ser centrais nessa história:  

  1. toda a parte de legislação e direitos autorais relativos à base de dados que a ferramenta usará para a criação dos vídeos; 

  1. o cuidado para que os vídeos gerados tenham o menor nível possível de preconceitos, já que sua base terá informações enviesadas. 

Em um mundo que já precisa lidar com deepfakes, é certeza que a regulação das IAs de vídeo será um tema muito quente para empresas e governos. Em contrapartida, o potencial de novos negócios é tão grande que fará com que essa tecnologia entre na sua e na nossa vida. 

*Este é um conteúdo originalmente publicado no The BRIEF, mas adaptado para nosso irmão TecMundo. Quer saber tudo sobre tecnologia, negócios e comportamento de um jeitinho especial? Assine a nossa newsletter! 

Você sabia que o TecMundo está no Facebook, Instagram, Telegram, TikTok, Twitter e no Whatsapp? Siga-nos por lá.