Geração de Vídeo em Código Aberto: Modelo de IA Wanxiang da Alibaba

No mundo da inteligência artificial, muitas empresas ainda estão lutando para decidir se adotam o caminho do código aberto. Mas a equipe de tecnologia da Alibaba está dando passos ousados, lançando recentemente seu modelo de geração de vídeo de ponta, o WanXiang. Este modelo de código aberto inclui não apenas o código de inferência completo e os pesos, mas também a licença de código aberto mais flexível disponível.

Os Desafios na Geração de Vídeo

Qualquer pessoa familiarizada com modelos de geração de vídeo sabe que eles enfrentam vários desafios. Por exemplo, a maioria dos modelos tem dificuldade em renderizar com precisão movimentos humanos complexos, como giros ginásticos ou coreografias de dança. Além disso, gerar interações realistas entre objetos, como como eles quicam ou reagem entre si, pode ser inconsistente. Até prompts de texto mais longos muitas vezes resultam em “adesão seletiva”, onde o modelo segue apenas parte das instruções. Se um modelo acertar todas essas três áreas, é raro que seja de código aberto.

A Abordagem do WanXiang da Alibaba

No entanto, o modelo WanXiang da Alibaba adota uma abordagem diferente. Ele não apenas captura ações complexas como rotações, giros e saltos, mas também reproduz fenômenos físicos realistas como colisões, rebotes e cortes. Ele pode até lidar com prompts de texto longos em inglês e chinês, interpretando-os com precisão e produzindo transições de cena e interações entre personagens correspondentes.

Vamos dar uma olhada em algumas demonstrações oficiais:

Demonstração 1: Mergulho
Prompt: Um homem realiza um mergulho profissional de uma plataforma. Ele está usando calção de banho vermelho e está invertido no ar, com os braços estendidos e as pernas unidas. O ângulo da câmera muda enquanto ele mergulha na piscina, causando um respingo contra o fundo azul.

Demonstração 2: Hipismo
Prompt: Um cavaleiro guia habilmente seu cavalo por um percurso de saltos. O cavaleiro está concentrado, usando equipamento profissional, enquanto o cavalo salta suavemente, superando cada obstáculo com precisão impressionante. A cena é dinâmica e tensa, com um fundo natural ao ar livre.

Demonstração 3: Luta de Gatos
Prompt: Dois gatos antropomórficos em equipamento de boxe estão envolvidos em uma luta intensa em um ringue iluminado. A cena captura movimentos rápidos, socos poderosos e detalhes de ação vívidos.

Aplicações Práticas do WanXiang

Você pode se perguntar: qual é o sentido de um modelo de geração de vídeo de código aberto se ele nem consegue rodar em hardware comum? Felizmente, o modelo da Alibaba vem em duas versões: 14B e 1.3B de parâmetros. A versão maior de 14B é feita para alta performance, mas a versão 1.3B foi projetada para rodar eficientemente em GPUs de nível consumidor, como a 4090, usando apenas 8.2GB de VRAM. Mesmo assim, produz

Principais Recursos do WanXiang

1. Geração de Texto para Vídeo

O recurso “texto para vídeo” é a capacidade mais destacada do WanXiang. Simplificando, ele transforma comandos de texto em vídeos de alta qualidade. Por exemplo, com apenas uma descrição, pode gerar efeitos cinematográficos, fontes especiais ou até logotipos animados. Esse nível de flexibilidade o diferencia de outros modelos.

Exemplo: Em uma paisagem urbana iluminada por néon, a palavra “Bem-vindo” aparece em uma placa contra um fundo cyberpunk vibrante.

2. Geração de Movimentos Complexos

Movimentos complexos são frequentemente o maior desafio para modelos de geração de vídeo. Seja girando, pulando ou correndo, até pequenos erros podem arruinar o realismo. No entanto, o WanXiang se destacou nessa área, lidando com movimentos com precisão notável.

Exemplo 1: Um jogador de basquete salta para fazer uma cesta. O modelo captura com precisão o movimento do jogador, desde o salto até a trajetória da bola.

Exemplo 2: Um palhaço passa por uma van em chamas, seus movimentos exagerados e expressões faciais capturados com estilo cinematográfico.

3. Conformidade com Instruções de Texto Longo

O WanXiang não se limita a comandos curtos e simples. Ele pode gerar cenas altamente detalhadas com base em descrições textais longas, mantendo consistência entre múltiplos sujeitos e ações.

Exemplo: Uma cena de festa animada com dançarinos diversos, decorações vibrantes e uma atmosfera festiva, capturada em uma tomada de grande angular.

4. Modelagem Física

O modelo também impressiona pela capacidade de simular interações físicas realistas. Por exemplo, quando um copo transparente de leite é derrubado, o WanXiang simula com precisão o fluxo do líquido e sua tensão superficial.

Exemplo: Um morango cai em um copo d’água. O modelo captura a interação entre a fruta e a água, mostrando a física das gotículas e a descida do morango em detalhes vívidos.

Inovações Tecnológicas Centrais

O desempenho poderoso do WanXiang deriva de duas inovações-chave: o eficiente 3D VAE causal (Autoencoder Variacional) e o Video Diffusion Transformer (DiT).

1. 3D VAE Causal Eficiente

A equipe da Alibaba projetou uma nova arquitetura 3D VAE especificamente adaptada para geração de vídeo. Esta inovação permite uma compressão mais eficiente de tempo e espaço, reduzindo o uso de memória e garantindo causalidade temporal – crucial para manter o fluxo de eventos em um vídeo.

2. Video Diffusion Transformer

O WanXiang também utiliza a avançada arquitetura Diffusion Transformer (DiT). Esta abordagem aproveita mecanismos de atenção completa para modelar dependências espaciais e temporais de longo prazo. A arquitetura do modelo, baseada em trajetórias lineares de ruído, ajuda a gerar vídeos com alinhamento espaço-temporal consistente.

O Futuro dos Modelos Open-Source

Com este lançamento, o modelo WanXiang da Alibaba estabeleceu um novo padrão para geração de vídeo, demonstrando que modelos open-source podem superar equivalentes proprietários. Juntamente com outros esforços open-source da Alibaba, como os modelos de linguagem Qwen, este movimento marca um momento significativo no desenvolvimento de IA.

Ao disponibilizar esses modelos poderosos como open-source, a Alibaba posicionou-se na vanguarda da inovação em IA. Seus modelos, incluindo o WanXiang, agora estão disponíveis em plataformas como GitHub, HuggingFace e MoDa, suportando uma ampla gama de casos de uso desde pesquisa acadêmica até produção comercial de vídeos.

Conclusão

O lançamento do WanXiang é um divisor de águas no cenário de geração de vídeo por IA. Com sua capacidade de criar vídeos detalhados e de alta qualidade a partir de prompts de texto, simular movimentos complexos e modelar física realista, está preparado para revolucionar indústrias como publicidade, cinema e até jogos. O compromisso da Alibaba com IA open-source está derrubando barreiras e estabelecendo novos padrões para o que é possível no mundo da criação de vídeos.