A Meta revelou o Emu Video, uma evolução da sua inteligência artificial generativa Emu, capaz de criar vídeos com base em descrições em texto. Essa ferramenta inovadora pode gerar clipes curtos em baixa resolução em questão de segundos.
O Emu Video opera como um gerador de imagens, interpretando a descrição do usuário, processando a solicitação na base de dados e entregando um vídeo de quatro segundos com resolução 512 x 512 em 16 quadros por segundo. A Meta descreve o Emu Video como uma arquitetura unificada para tarefas de geração de vídeo, capaz de responder a diferentes tipos de entradas, como somente texto, somente imagem ou uma combinação de texto e imagem. A abordagem “dividida” permite treinar modelos generativos com maior eficiência, resultando em clipes mais convincentes do que a IA geradora de vídeos anterior, a Make-A-Video.
A Meta também lançou o Emu Edit para edição de conteúdo gerado pelo Emu Video. Esse modelo generativo permite que o usuário descreva modificações, como adicionar ou remover elementos de uma cena, alterar a velocidade do clipe e modificar a ambientação, entre outras opções. Os resultados mantêm a fidelidade às solicitações do usuário, pois o Emu Edit segue instruções com precisão, preservando os pixels não relacionados às instruções na imagem de entrada.
É importante notar que, embora o Emu Video e o Emu Edit representem avanços significativos no desenvolvimento de IAs generativas, eles ainda não estão disponíveis para o público. A Meta destaca que, por enquanto, o projeto é exclusivamente voltado para pesquisa, reconhecendo, no entanto, que os casos de uso em potencial são evidentes. A empresa enfatiza que essas ferramentas não substituem artistas, animadores e profissionais da área, mas são tecnologias que podem facilitar seu trabalho.