StoryMem

Narrativa de Vídeo Longo Multi-take com Memória

Da "geração aleatória" ao "pensamento de diretor". Através de Bancos de Memória Visual Explícitos e tecnologia de Deslocamento RoPE Negativo, StoryMem resolve o problema do "esquecimento" na narrativa multi-take, alcançando consistência cinematográfica entre tomadas.

Baseado na Arquitetura Wan2.2 (14B MoE)

Avanços Fundamentais e Evolução

A "Terceira Via" da Tecnologia de Geração de Vídeo

Dor Central: "Esquecimento" Multi-take

Modelos DiT existentes tratam cada geração como um processo aleatório independente. Ao cortar de "plano geral" para "close-up", características em nível de pixel (penteado, textura da roupa) frequentemente sofrem mutação, quebrando a imersão.

Banco de Memória Explícito

Além da Modelagem Conjunta de alto custo computacional e auto-regressão simples. StoryMem estabelece um módulo de memória dinâmico independente do processo de geração, mantendo o contexto narrativo como a memória de trabalho humana.

Deslocamento RoPE Negativo

Singularidade Tecnológica: Ao atribuir índices de tempo negativos aos quadros de memória, cria um mecanismo de atenção "semanticamente conectado, mas espaciotemporalmente desconectado". Simula perfeitamente Cortes Secos (Hard Cut) de filme, retendo identidade enquanto reinicia o movimento.

Mergulho Profundo na Arquitetura M2V

StoryMem Pipeline

Construção do Banco de Memória

Baseado no ajuste fino Wan2.2-I2V + LoRA. Usa mecanismo de filtragem inteligente, mantendo apenas quadros-chave das últimas 10 tomadas ativas, simulando a "memória de trabalho" humana para evitar exaustão de VRAM.

Seleção Semântica de Quadros-chave

Introduz modelo CLIP para calcular similaridade de cosseno. Armazena apenas quadros que melhor refletem as descrições atuais do roteiro (ex: "expressão zangada"), descartando quadros intermediários borrados ou piscando.

Filtragem de Preferência Estética

Integra modelo de pontuação HPSv3 como "Diretor de Arte IA". Filtra quadros colapsados em tempo real, garantindo que apenas material de alta qualidade estética permaneça na memória.

Concatenação de Espaço Latente

Quadros de memória são comprimidos em Latents via VAE 3D, concatenados com vetores de ruído atuais na dimensão do canal, e injetados via adaptador LoRA Rank=128.

Avaliação Autoritativa ST-Bench

Avaliação quantitativa baseada em 300 prompts narrativos multi-take

Consistência Inter-take
0.5065
9.4% > HoloCine

Baseado no cálculo de similaridade de cosseno ViCLIP, quantificando com precisão a capacidade de retenção de identidade do protagonista.

Qualidade Estética
0.6133
Nível SOTA

Pontuação do preditor estético LAION, provando que o módulo de memória não degradou os padrões artísticos.

Adesão ao Prompt
0.5337
Alta Fidelidade

Mecanismo de memória não interferiu na compreensão do modelo de novas instruções, respondendo com precisão a mudanças de roteiro.

Narrativa Roteiro-para-Vídeo (Script-to-Video)

Entrada de roteiro estruturado JSON, controle tomadas como um diretor

Sonho no Pavilhão Vermelho: Daiyu Entra

Atmospheric
Scene 1 - 全景
Cut: True
Início da primavera, fora da mansão Jia. Lin Daiyu, em Hanfu verde pálido e capa transparente, desce do sedan.
Scene 2 - 中景跟随
Cut: True
Daiyu para perto de um caminho de pedra com flores de ameixeira. Ela ajusta sua capa, respira fundo, expressão calma e digna.
Scene 3 - 特写
Luz interior quente contra tons externos frios. Close-up em seu rosto e mãos, pouca profundidade de campo.
Scene 4 - 互动
Baoyu se aproxima, jovem e bonito. Ele diminui o passo, faz uma reverência; Daiyu retribui. A luz entra pelas janelas de treliça.

Comparação e Posicionamento

Comparado a modelos como Open-Sora focados em simulação física, StoryMem foca em Lógica Narrativa Cinematográfica.

Modelo Base (Wan2.2)

Processo Aleatório: Aparência do personagem sofre mutação com mudanças de tomada, modelo não consegue manter imagem consistente.

StoryMem (Nós)

Injeção de Memória: Mesmo sob diferentes ângulos e iluminação, detalhes estruturais (olhos, cor) permanecem altamente consistentes.

vs. Sora / Open-Sora

Sora tende a gerar um único vídeo longo contínuo. StoryMem busca Sequências Narrativas compostas por tomadas de 5-10s, adequando-se a pipelines de edição de filme profissional.

vs. AnimateDiff

AnimateDiff se destaca em loops estilizados, mas cria transições de morphing durante "Cortes Secos". StoryMem resolve isso perfeitamente via RoPE negativo.

vs. IP-Adapter

IP-Adapter depende de uma única imagem de referência, propenso a colapsar em dinâmicas complexas. O banco de memória dinâmico do StoryMem captura características multi-ângulo.

StoryMem prova que a "Memória" é chave para realizar narrativa inteligente avançada. Embora atualmente limitado pela qualidade do modelo base (ex: detalhes das mãos) e custos de VRAM (24GB recomendado), abre a porta para "Estúdios de Cinema Unipessoais".

Perspectivas Futuras: Introduzir Bancos de Memória de Áudio para consistência de voz; explorar possibilidades de geração infinita para Filmes Interativos e Jogos com renderização em tempo real.

📄 Ler Paper Completo (ArXiv)