Generación de video de código abierto: Modelo de IA Wanxiang de Alibaba

En el mundo de la inteligencia artificial, muchas empresas aún luchan por decidir si adoptar el código abierto. Sin embargo, el equipo tecnológico de Alibaba está dando pasos audaces, lanzando recientemente su modelo de generación de videos de vanguardia, WanXiang. Este modelo de código abierto incluye no solo el código de inferencia completo y los pesos, sino también la licencia de código abierto más flexible disponible.

Los desafíos en la generación de videos

Cualquiera familiarizado con modelos de generación de videos sabe que enfrentan varios retos. Por ejemplo, la mayoría lucha por renderizar con precisión movimientos humanos complejos, como volteretas gimnásticas o coreografías de baile. Además, generar interacciones realistas entre objetos, como rebotes o reacciones mutuas, puede ser irregular. Incluso instrucciones textuales largas a menudo resultan en “adherencia selectiva”, donde el modelo solo sigue parte de las indicaciones. Si un modelo logra dominar estas tres áreas, es raro que sea de código abierto.

El enfoque de WanXiang de Alibaba

Sin embargo, el modelo WanXiang de Alibaba toma un enfoque diferente. No solo captura acciones complejas como rotaciones, volteretas y saltos, sino que también reproduce fenómenos físicos realistas como colisiones, rebotes y cortes. Incluso puede procesar instrucciones textuales largas en inglés y chino, interpretándolas con precisión y produciendo transiciones de escena e interacciones entre personajes correspondientes.

Veamos algunas demostraciones oficiales:

Demostración 1: Acción de buceo
Instrucción: Un hombre realiza una acrobacia profesional de buceo desde una plataforma. Viste pantalones de baño rojos y está invertido en el aire, con los brazos extendidos y las piernas juntas. El ángulo de la cámara cambia mientras se sumerge en la piscina, creando salpicaduras contra el fondo azul.

Demostración 2: Evento ecuestre
Instrucción: Un jinete guía hábilmente a su caballo a través de un recorrido de salto. El jinete, concentrado y con equipo profesional, mientras el caballo salta suavemente, superando cada obstáculo con precisión impresionante. La escena es dinámica y tensa, con un fondo natural al aire libre.

Demostración 3: Pelea de boxeo entre gatos
Instrucción: Dos gatos antropomórficos con equipo de boxeo libran una intensa pelea en un ring brillantemente iluminado. La escena captura movimientos rápidos, golpes poderosos y detalles de acción vívidos.

Aplicaciones prácticas de WanXiang

Quizás te preguntes: ¿de qué sirve un modelo de generación de videos de código abierto si ni siquiera puede ejecutarse en hardware común? Afortunadamente, el modelo de Alibaba tiene dos versiones: 14B y 1.3B parámetros. La versión 14B está diseñada para alto rendimiento, pero la 1.3B puede ejecutarse eficientemente en GPUs de consumo como la 4090, con tan solo 8.2GB de VRAM. Aun así, produce videos de 480P de alta calidad, ideal para investigación académica y desarrollo de modelos secundarios.

El modelo WanXiang, incluso en su versión reducida, demuestra resultados impresionantes en plataformas de referencia como VBench. Con una puntuación total del 86.22%, supera a otros modelos internacionales de generación de videos, incluyendo Sora, HunyuanVideo y Gen3.

Características clave de WanXiang

1. Generación de texto a video

La función “texto a video” es la capacidad destacada de WanXiang. En términos simples, puede convertir instrucciones textuales en videos de alta calidad. Por ejemplo, con solo una descripción, puede generar efectos cinematográficos, tipografías especiales o incluso logotipos animados. Este nivel de flexibilidad lo distingue de otros modelos.

Ejemplo: En un paisaje urbano iluminado con neón, la palabra “Bienvenido” aparece en un letrero contra un fondo vibrante de estilo cyberpunk.

2. Generación de movimientos complejos

El movimiento complejo suele ser el mayor reto para los modelos de generación de videos. Ya sea girar, saltar o correr, incluso pequeños errores pueden arruinar el realismo. Sin embargo, WanXiang ha sobresalido en esta área, manejando movimientos con notable precisión.

Ejemplo 1: Un jugador de baloncesto salta para realizar un lanzamiento. El modelo captura con precisión el movimiento, desde el salto hasta la trayectoria del balón.

Ejemplo 2: Un payaso camina junto a una furgoneta en llamas, capturando sus movimientos exagerados y expresiones faciales con estilo cinematográfico.

3. Cumplimiento de instrucciones textuales largas

WanXiang no solo maneja instrucciones breves y simples. Puede generar escenas altamente detalladas basadas en descripciones textuales extensas, manteniendo coherencia entre múltiples sujetos y acciones.

Ejemplo: Una escena de fiesta animada con bailarines diversos, decoraciones vibrantes y ambiente festivo, capturada en una toma gran angular.

4. Modelado físico

El modelo también impresiona al simular interacciones físicas realistas. Por ejemplo, cuando se inclina un vaso transparente de leche, WanXiang simula con precisión el flujo del líquido y su tensión superficial.

Ejemplo: Una fresa cae en un vaso de agua. El modelo captura la interacción entre la fruta y el agua, mostrando la física de las gotas y el descenso de la fresa con detalle vívido.

Innovaciones tecnológicas clave

El rendimiento potente de WanXiang proviene de dos innovaciones: el 3D VAE causal eficiente y el Video Diffusion Transformer (DiT).

1. 3D VAE causal eficiente

El equipo de Alibaba diseñó una nueva arquitectura 3D VAE específica para generación de videos. Esta innovación permite comprimir tiempo y espacio más eficientemente, reduciendo el uso de memoria y asegurando causalidad temporal, crucial para mantener la fluidez de eventos en un video.

2. Video Diffusion Transformer

WanXiang también utiliza la arquitectura DiT (Diffusion Transformer) de última generación. Este enfoque aprovecha mecanismos de atención completa para modelar dependencias espaciotemporales a largo plazo. La arquitectura basada en trayectorias de ruido lineal ayuda a generar videos con alineación espacio-temporal consistente.

El futuro de los modelos de código abierto

Con este lanzamiento, WanXiang de Alibaba establece un nuevo estándar en generación de videos, demostrando que los modelos abiertos pueden superar a los privativos. Junto con otros esfuerzos de código abierto de Alibaba, como los modelos lingüísticos Qwen, este movimiento marca un hito en el desarrollo de IA.

Al liberar estos potentes modelos, Alibaba se posiciona a la vanguardia de la innovación en IA. Sus modelos, incluyendo WanXiang, están disponibles en plataformas como GitHub, HuggingFace y MoDa, soportando casos de uso desde investigación académica hasta producción comercial de videos.

Conclusión

El lanzamiento de WanXiang cambia las reglas del juego en la generación de videos con IA. Con su capacidad para crear videos detallados y de alta calidad desde texto, simular movimientos complejos y modelar física realista, está listo para revolucionar industrias como publicidad, cine y videojuegos. El compromiso de Alibaba con la IA de código abierto derriba barreras y establece nuevos estándares para lo posible en la creación de videos.