StoryMem

Multi-Shot Langvideo-Storytelling mit Gedächtnis

Von "zufälliger Generierung" zu "Regisseur-Denken". Durch explizite visuelle Gedächtnisbanken und negative RoPE-Shift-Technologie löst StoryMem das "Vergessens"-Problem beim Multi-Shot-Storytelling und erreicht filmische Konsistenz über verschiedene Einstellungen hinweg.

Basierend auf Wan2.2 (14B MoE) Architektur

Kern-Durchbrüche & Evolution

Der "Dritte Weg" der Videogenerierungstechnologie

Kernproblem: Multi-Shot "Vergessen"

Bestehende DiT-Modelle betrachten jede Generierung als unabhängigen Zufallsprozess. Beim Schnitt von "Totale" zu "Nahaufnahme" mutieren Pixel-Eigenschaften (Frisur, Kleidungstextur) oft, was die Immersion bricht.

Explizite Gedächtnisbank

Jenseits von rechenintensivem Joint Modeling und einfacher Autoregression. StoryMem etabliert ein dynamisches Gedächtnismodul unabhängig vom Generierungsprozess, das den narrativen Kontext wie das menschliche Arbeitsgedächtnis pflegt.

Negativer RoPE Shift

Technologische Singularität: Durch Zuweisung negativer Zeitindizes zu Gedächtnisframes entsteht ein Aufmerksamkeitsmechanismus, der "semantisch verbunden, aber räumlich-zeitlich getrennt" ist. Simuliert perfekt filmische Hard Cuts, behält Identität bei und setzt Bewegung zurück.

M2V Architektur Deep Dive

StoryMem Pipeline

Aufbau der Gedächtnisbank

Basierend auf Wan2.2-I2V + LoRA Feinabstimmung. Nutzt intelligenten Filtermechanismus, um nur Keyframes der letzten 10 aktiven Shots zu behalten, imitiert menschliches "Arbeitsgedächtnis" zur Vermeidung von VRAM-Erschöpfung.

Semantische Keyframe-Auswahl

Führt CLIP-Modell zur Berechnung der Kosinus-Ähnlichkeit ein. Speichert nur Frames, die die aktuelle Drehbuchbeschreibung (z.B. "wütender Ausdruck") am besten widerspiegeln, und verwirft unscharfe oder blinzelnde Zwischenframes.

Filterung nach ästhetischer Präferenz

Integriert HPSv3 Scoring-Modell als "KI Art Director". Filtert kollabierte Bilder in Echtzeit heraus und stellt sicher, dass nur Material mit hoher ästhetischer Qualität im Gedächtnis bleibt.

Latent Space Concatenation

Gedächtnisframes werden via 3D VAE zu Latents komprimiert, in der Kanaldimension mit dem aktuellen Rauschvektor verkettet und über Rank=128 LoRA-Adapter in das Modell injiziert.

ST-Bench Autoritative Bewertung

Quantitative Bewertung basierend auf 300 Multi-Shot-Narrativ-Prompts

Konsistenz über Shots
0.5065
9,4% > HoloCine

Basierend auf ViCLIP Kosinus-Ähnlichkeit, quantifiziert genau die Fähigkeit zur Identitätsbewahrung des Protagonisten.

Ästhetische Qualität
0.6133
SOTA Niveau

LAION Ästhetik-Prädiktor-Score beweist, dass das Gedächtnismodul den künstlerischen Standard nicht gesenkt hat.

Prompt-Einhaltung
0.5337
High-Fidelity Verständnis

Gedächtnismechanismus stört das Verständnis neuer Anweisungen durch das Modell nicht und reagiert genau auf Drehbuchänderungen.

Drehbuchgesteuertes Storytelling (Script-to-Video)

JSON-strukturierte Drehbueingabe, Szenensteuerung wie ein Regisseur

Traum der Roten Kammer: Daiyu betritt das Anwesen

Atmospheric
Scene 1 - 全景
Cut: True
Frühling, vor dem Jia-Anwesen. Lin Daiyu, in hellgrünem Hanfu und durchsichtigem Umhang, steigt aus der Sänfte.
Scene 2 - 中景跟随
Cut: True
Daiyu hält an einem Steinpfad mit Pflaumenblüten. Sie richtet ihren Umhang, atmet tief ein, Ausdruck ruhig und würdevoll.
Scene 3 - 特写
Warmes Innenlicht gegen kalte Außentöne. Nahaufnahme von Gesicht und Händen, geringe Schärfentiefe.
Scene 4 - 互动
Baoyu nähert sich, jung und gutaussehend. Er verlangsamt den Schritt, verbeugt sich; Daiyu erwidert. Licht fällt durch Gitterfenster.

Vergleich & Positionierung

Im Vergleich zu Modellen wie Open-Sora, die sich auf physikalische Simulation konzentrieren, fokussiert StoryMem auf filmische Erzähllogik.

Basis-Modell (Wan2.2)

Zufallsprozess: Charakteraussehen mutiert mit Szenenwechsel, Modell kann gleiches Bild nicht halten.

StoryMem (Wir)

Gedächtnis-Injektion: Selbst unter verschiedenen Winkeln und Lichtverhältnissen bleiben strukturelle Details (Augen, Farbe) hochgradig konsistent.

vs. Sora / Open-Sora

Sora tendiert dazu, einzelne kontinuierliche Langvideos zu generieren. StoryMem strebt nach erzählerischen Sequenzen aus 5-10s Shots, passend für professionelle Filmschnitt-Pipelines.

vs. AnimateDiff

AnimateDiff ist gut in stilisierten Loops, erzeugt aber Morphing-Übergänge bei "Hard Cuts". StoryMem löst dies perfekt durch negativen RoPE.

vs. IP-Adapter

IP-Adapter verlässt sich auf ein einzelnes Referenzbild, anfällig für Zusammenbruch bei komplexer Dynamik. StoryMem's dynamische Gedächtnisbank erfasst Multi-Winkel-Features.

StoryMem beweist, dass "Gedächtnis" der Schlüssel zu fortgeschrittenem intelligentem Storytelling ist. Obwohl derzeit durch die Qualität des Basismodells (z.B. Handdetails) und VRAM-Kosten (24GB empfohlen) begrenzt, öffnet es die Tür zu "Ein-Personen-Filmstudios".

Zukunftsaussicht: Einführung von Audio-Gedächtnisbanken für Stimmkonsistenz; Erforschung unendlicher Generierungsmöglichkeiten für interaktive Filme & Spiele mit Echtzeit-Rendering.

📄 Vollständiges Paper lesen (ArXiv)