In der Welt der künstlichen Intelligenz ringen viele Unternehmen noch damit, ob sie den Open-Source-Weg einschlagen sollen. Doch das Technikteam von Alibaba macht mutige Schritte und hat kürzlich sein hochmodernes Videogenerierungsmodell WanXiang veröffentlicht. Dieses Open-Source-Modell umfasst nicht nur den vollständigen Inferenzcode und Gewichtungen, sondern auch die flexibelste verfügbare Open-Source-Lizenz.
Herausforderungen bei der Videogenerierung
Wer mit Videogenerierungsmodellen vertraut ist, weiß, dass sie mehrere Herausforderungen bewältigen müssen. Die meisten Modelle haben beispielsweise Schwierigkeiten, komplexe menschliche Bewegungen wie Turnüberschläge oder Tanzroutinen präzise darzustellen. Auch die realistische Interaktion zwischen Objekten, etwa wie sie aufprallen oder aufeinander reagieren, ist oft unzuverlässig. Selbst längere Textanweisungen führen häufig zu einer „selektiven Befolgung“, bei der das Modell nur Teile der Anweisungen umsetzt. Wenn ein Modell alle drei Bereiche korrekt beherrscht, ist es selten Open-Source.

Alibabas Ansatz mit WanXiang
Doch Alibabas WanXiang-Modell verfolgt einen anderen Ansatz. Es erfasst nicht nur komplexe Aktionen wie Drehungen, Überschläge und Sprünge, sondern reproduziert auch realistische physikalische Phänomene wie Kollisionen, Rückprall und Schnitte. Es kann sogar lange Textanweisungen auf Englisch und Chinesisch verarbeiten, diese präzise interpretieren und entsprechende Szenenübergänge sowie Charakterinteraktionen erzeugen.
Hier einige offizielle Demos:
Demo 1: Sprungaktion
Prompt: Ein Mann führt einen professionellen Sprung vom Sprungturm aus. Er trägt rote Badehosen und befindet sich kopfüber in der Luft, Arme ausgestreckt, Beine geschlossen. Die Kameraperspektive wechselt, während er ins Becken eintaucht und vor dem blauen Hintergrund eine Wasserfontäne erzeugt.

Demo 2: Reitturnier
Prompt: Ein Reiter führt sein Pferd gekonnt durch einen Springparcours. Der Reiter ist konzentriert und trägt professionelle Ausrüstung, während das Pferd geschmeidig springt und jedes Hindernis mit beeindruckender Präzision meistert. Die Szene ist dynamisch und spannungsgeladen mit natürlichem Outdoor-Hintergrund.

Demo 3: Katzen-Boxkampf
Prompt: Zwei anthropomorphe Katzen in Boxausrüstung liefern sich einen intensiven Kampf in einem hell erleuchteten Ring. Die Szene zeigt schnelle Bewegungen, kraftvolle Schläge und lebendige Aktionsdetails.

Praktische Anwendungen von WanXiang
Man könnte sich fragen: Wozu ein Open-Source-Videomodell, wenn es nicht mal auf Standardhardware läuft? Glücklicherweise bietet Alibaba zwei Versionen an: 14B und 1,3B Parameter. Die größere 14B-Version ist für Hochleistung ausgelegt, während die 1,3B-Version auf Consumer-GPUs wie der 4090 mit nur 8,2 GB VRAM effizient läuft. Dennoch liefert sie hochwertige 480P-Videos – ideal für Forschung und sekundäre Modellentwicklung.
Selbst die kleinere Version von WanXiang erzielt auf Benchmark-Plattformen wie VBench beeindruckende Ergebnisse. Mit einer Gesamtpunktzahl von 86,22 % übertrifft es andere internationale Modelle wie Sora, HunyuanVideo und Gen3.
Hauptmerkmale von WanXiang
1. Text-zu-Video-Generierung
Die „Text-zu-Video“-Funktion ist WanXiangs herausragende Fähigkeit. Einfach ausgedrückt: Es verwandelt Textanweisungen in hochwertige Videos. Mit bloßen Beschreibungen erzeugt es kinoreife Effekte, Spezialschriften oder animierte Logos – eine Flexibilität, die es von anderen Modellen abhebt.
- Beispiel: In einer Neon-Stadtlandschaft erscheint das Wort „Welcome“ auf einem Schild vor cyberpunkhaftem Hintergrund.

2. Generierung komplexer Bewegungen
Komplexe Bewegungen sind oft die größte Hürde für Videomodelle. Ob Drehungen, Sprünge oder Läufe – kleinste Fehler zerstören die Realitätstreue. WanXiang meistert dies jedoch mit bemerkenswerter Präzision.
- Beispiel 1: Ein Basketballspieler springt zum Korbwurf. Das Modell erfasst präzise die Bewegung vom Absprung bis zur Ballflugbahn.

- Beispiel 2: Ein Clown geht an einem brennenden Van vorbei – seine übertriebenen Bewegungen und Gesichtsausdrücke werden filmreif eingefangen.

3. Umsetzung langer Textanweisungen
WanXiang beschränkt sich nicht auf kurze Prompts. Es generiert detaillierte Szenen aus langen Beschreibungen und bewahrt dabei die Konsistenz über mehrere Subjekte und Aktionen hinweg.
- Beispiel: Eine lebhafte Party mit vielfältigen Tänzern, bunten Dekorationen und festlicher Stimmung in einer Weitwinkelaufnahme.

4. Physiksimulation
Das Modell überzeugt auch durch realistische physikalische Interaktionen. Wenn etwa ein durchsichtiges Milchglas umkippt, simuliert WanXiang präzise den Flüssigkeitsfluss und die Oberflächenspannung.
- Beispiel: Eine Erdbeere fällt in ein Wasserglas. Das Modell zeigt die Interaktion zwischen Frucht und Wasser mit detailgetreuen Wassertropfen und dem Sinkverlauf.

Kerninnovationen der Technologie
WanXiangs Leistung basiert auf zwei Innovationen: dem effizienten kausalen 3D-VAE (Variational Autoencoder) und dem Video Diffusion Transformer (DiT).
1. Effizienter kausaler 3D-VAE
Alibabas Team entwickelte eine neue 3D-VAE-Architektur speziell für Videogenerierung. Diese ermöglicht effizientere Kompression von Zeit und Raum, reduziert den Speicherbedarf und gewährleistet kausale Zeitabläufe – entscheidend für den logischen Videofluss.

2. Video Diffusion Transformer
WanXiang nutzt zudem die moderne DiT-Architektur (Diffusion Transformer). Vollständige Aufmerksamkeitsmechanismen modellieren langfristige räumliche und zeitliche Abhängigkeiten. Die auf linearen Rauschverläufen basierende Architektur ermöglicht konsistente Zeit-Raum-Ausrichtung.
Die Zukunft von Open-Source-Modellen
Mit dieser Veröffentlichung setzt WanXiang neue Maßstäbe und beweist, dass Open-Source-Modelle proprietäre Lösungen übertreffen können. Zusammen mit anderen Initiativen wie den Qwen-Sprachmodellen markiert dies einen Meilenstein in der KI-Entwicklung.
Durch das Open-Sourcing positioniert sich Alibaba an der Spitze der KI-Innovation. Die Modelle – einschließlich WanXiang – sind auf Plattformen wie GitHub, HuggingFace und MoDa verfügbar und unterstützen Anwendungen von der Forschung bis zur kommerziellen Videoproduktion.
Fazit
WanXiangs Veröffentlichung revolutioniert die KI-Videogenerierung. Durch detaillierte Texteingaben, komplexe Bewegungen und physikalische Präzision wird es Branchen wie Werbung, Film und Gaming verändern. Alibabas Open-Source-Engagement durchbricht Grenzen und setzt neue Standards für kreative Videoproduktion.