StoryMem

带记忆的多镜头长视频叙事

从“随机生成”到“导演思维”。通过显式视觉记忆库与负向 RoPE 偏移技术,StoryMem 解决了多镜头叙事中的“遗忘”难题,实现了电影级的跨镜头一致性。

基于 Wan2.2 (14B MoE) 架构

核心突破与演进

视频生成技术的“第三条道路”

核心痛点:多镜头“遗忘”

现有 DiT 模型视每次生成为独立随机过程。当从“全景”切到“特写”时,虽然语义符合,但像素级特征(发型、服饰纹理)往往发生突变,导致观众沉浸感破裂。

显式记忆库 (Explicit Memory)

超越高算力的联合建模(Joint Modeling)和简单的自回归。StoryMem 建立独立于生成过程之外的动态记忆模块,像人类工作记忆一样维护叙事语境。

负向 RoPE 偏移

技术奇点:通过赋予记忆帧负向时间索引,创造了一种“语义相连但时空断开”的注意力机制。完美模拟电影硬切(Hard Cut),保留身份特征,重置运动状态。

M2V 架构深度解析

StoryMem Pipeline

记忆库构建 (Memory Bank)

基于 Wan2.2-I2V + LoRA 微调。采用智能筛选机制,仅保留最近 10 个活跃镜头的关键帧,模拟人类“工作记忆”,避免显存枯竭。

语义关键帧选择

引入 CLIP 模型计算余弦相似度。只存储那些最能准确反映当前剧本描述(如“愤怒的表情”)的帧,剔除模糊或闭眼的中间帧。

美学偏好过滤

集成 HPSv3 评分模型作为“AI 艺术总监”。实时剔除崩坏画面,确保记忆库中仅留存高审美质量的素材。

潜在空间拼接

记忆帧经由 3D VAE 压缩为 Latents,与当前生成的噪声向量在通道维度拼接,通过 Rank=128 的 LoRA 适配器注入模型。

ST-Bench 权威评测

基于 300 个多镜头叙事 Prompt 的量化评估

跨镜头一致性
0.5065
比 HoloCine 提升 9.4%

基于 ViCLIP 余弦相似度计算,准确量化主角身份保持能力。

美学质量
0.6133
SOTA 水平

LAION 美学预测器评分,证明记忆模块未降低艺术水准。

Prompt 依从性
0.5337
高保真理解

记忆机制未干扰模型对新指令的理解,准确响应剧本变化。

脚本驱动叙事 (Script-to-Video)

JSON 结构化脚本输入,像导演一样控制分镜

红楼梦:黛玉进府

Atmospheric
Scene 1 - 全景
Cut: True
早春,贾府门外。林黛玉,身着淡绿色汉服,披着轻纱斗篷,步下轿子。
Scene 2 - 中景跟随
Cut: True
黛玉停在种满梅花的石径旁。她整理斗篷,深吸一口气,神情平静而端庄。
Scene 3 - 特写
室内暖光映衬着室外的冷色调。特写她的面部和手部,浅景深。
Scene 4 - 互动
宝玉走近,年轻俊秀。他放慢脚步,行礼;黛玉还礼。光线透过窗格洒下斑驳光影。

效果对比与定位

相比 Open-Sora 等专注物理模拟的模型,StoryMem 专注于电影叙事逻辑

Base Model (Wan2.2)

随机过程:角色外观随镜头切换发生突变,模型无法维持同一形象。

StoryMem (Ours)

记忆注入:即使在不同角度和光照下,结构细节(眼睛、颜色)保持高度一致。

vs. Sora / Open-Sora

Sora 倾向于生成单条连续长视频。StoryMem 追求由 5-10 秒镜头组成的叙事序列,更符合专业影视剪辑流水线。

vs. AnimateDiff

AnimateDiff 擅长风格化循环,但在处理“硬切(Hard Cut)”时会产生变形过渡。StoryMem 通过负向 RoPE 完美解决此问题。

vs. IP-Adapter

IP-Adapter 依赖单张参考图,在复杂动态中易崩坏。StoryMem 的动态记忆库能捕捉多角度特征,避免僵硬。

StoryMem 证明了“记忆”是实现高级智能叙事的关键。尽管目前受限于基座模型画质(如手部细节)及显存成本(推荐 24GB VRAM),但它开启了“单人电影工作室”的大门。

未来展望:引入音频记忆库实现声纹一致性;结合实时渲染探索交互式电影与游戏的无限生成可能。

📄 阅读论文全文 (ArXiv)