StoryMem

기억을 가진 멀티 샷 장편 비디오 스토리텔링

"무작위 생성"에서 "감독적 사고"로. 명시적 시각 기억 저장소와 음의 RoPE 이동 기술을 통해 StoryMem은 멀티 샷 스토리텔링의 "망각" 문제를 해결하고 영화 수준의 샷 간 일관성을 달성했습니다.

Wan2.2 (14B MoE) 아키텍처 기반

핵심 돌파구 및 진화

비디오 생성 기술의 "제3의 길"

핵심 고충: 멀티 샷 "망각"

기존 DiT 모델은 각 생성을 독립적인 무작위 과정으로 간주합니다. "풀 샷"에서 "클로즈업"으로 전환될 때 의미는 맞더라도 픽셀 수준의 특징(헤어스타일, 의상 질감)이 돌연변이를 일으켜 관객의 몰입감을 깨뜨립니다.

명시적 기억 저장소 (Explicit Memory)

고연산의 결합 모델링(Joint Modeling)과 단순한 자기회귀를 넘어섭니다. StoryMem은 생성 과정과 독립적인 동적 기억 모듈을 구축하여 인간의 작업 기억처럼 서사적 맥락을 유지합니다.

음의 RoPE 이동

기술적 특이점: 기억 프레임에 음의 시간 인덱스를 부여하여 "의미적으로 연결되어 있지만 시공간적으로 분리된" 주의 메커니즘을 생성합니다. 영화의 하드 컷(Hard Cut)을 완벽하게 시뮬레이션하여 정체성을 유지하면서 움직임 상태를 재설정합니다.

M2V 아키텍처 심층 분석

StoryMem Pipeline

기억 저장소 구축

Wan2.2-I2V + LoRA 미세 조정을 기반으로 합니다. 지능형 선별 메커니즘을 채택하여 최근 10개의 활성 샷의 키 프레임만 유지, 인간의 "작업 기억"을 모방하여 VRAM 고갈을 방지합니다.

의미론적 키 프레임 선택

CLIP 모델을 도입하여 코사인 유사도를 계산합니다. 현재 대본 묘사(예: "화난 표정")를 가장 정확하게 반영하는 프레임만 저장하고 흐릿하거나 눈을 감은 중간 프레임은 제거합니다.

미적 선호도 필터링

HPSv3 채점 모델을 "AI 아트 디렉터"로 통합. 붕괴된 화면을 실시간으로 제거하여 기억 저장소에 높은 미적 품질의 소스만 남도록 보장합니다.

잠재 공간 연결

기억 프레임은 3D VAE를 통해 Latents로 압축되고, 현재 생성된 노이즈 벡터와 채널 차원에서 연결되어 Rank=128의 LoRA 어댑터를 통해 모델에 주입됩니다.

ST-Bench 권위 있는 평가

300개의 멀티 샷 서사 프롬프트 기반 정량적 평가

샷 간 일관성
0.5065
HoloCine 대비 9.4% 향상

ViCLIP 코사인 유사도 계산 기반, 주인공 정체성 유지 능력을 정확하게 정량화.

미적 품질
0.6133
SOTA 수준

LAION 미적 예측기 점수, 기억 모듈이 예술적 수준을 저하시키지 않았음을 증명.

프롬프트 준수
0.5337
고충실도 이해

기억 메커니즘이 모델의 새로운 지시 이해를 방해하지 않고 대본 변화에 정확하게 반응.

대본 기반 스토리텔링 (Script-to-Video)

JSON 구조화된 대본 입력, 감독처럼 샷 제어

홍루몽: 대옥의 입부

Atmospheric
Scene 1 - 全景
Cut: True
초봄, 가부 문밖. 연한 녹색 한푸를 입고 얇은 망토를 두른 임대옥이 가마에서 내린다.
Scene 2 - 中景跟随
Cut: True
대옥은 매화가 핀 돌길 옆에 멈춰 선다. 그녀는 망토를 정리하고 깊은 숨을 들이쉰다. 표정은 차분하고 단아하다.
Scene 3 - 特写
실내의 따뜻한 빛이 실외의 차가운 색조와 대조된다. 그녀의 얼굴과 손 클로즈업, 얕은 피사계 심도.
Scene 4 - 互动
보옥이 다가온다, 젊고 잘생겼다. 그는 걸음을 늦추고 인사를 한다; 대옥도 답례한다. 빛이 격자 창을 통해 얼룩덜룩한 그림자를 드리운다.

효과 비교 및 포지셔닝

물리 시뮬레이션에 집중하는 Open-Sora 등의 모델과 비교하여 StoryMem은 영화적 서사 논리에 집중합니다.

기본 모델 (Wan2.2)

무작위 과정: 샷 전환에 따라 캐릭터 외형이 돌연변이를 일으켜 모델이 동일한 이미지를 유지할 수 없음.

StoryMem (자사)

기억 주입: 다른 각도와 조명 하에서도 구조적 세부 사항(눈, 색상)이 고도로 일관됨.

vs. Sora / Open-Sora

Sora는 단일 연속 장편 비디오를 생성하는 경향이 있습니다. StoryMem은 5-10초 샷으로 구성된 서사 시퀀스를 추구하여 전문 영상 편집 파이프라인에 더 적합합니다.

vs. AnimateDiff

AnimateDiff는 스타일화된 루프에 능하지만 "하드 컷(Hard Cut)" 처리 시 변형 전환이 발생합니다. StoryMem은 음의 RoPE를 통해 이 문제를 완벽하게 해결합니다.

vs. IP-Adapter

IP-Adapter는 단일 참조 이미지에 의존하여 복잡한 동적 상황에서 붕괴되기 쉽습니다. StoryMem의 동적 기억 저장소는 다각도 특징을 포착하여 경직을 방지합니다.

StoryMem은 "기억"이 고급 지능형 스토리텔링 실현의 열쇠임을 증명했습니다. 현재 기본 모델 화질(예: 손 세부 묘사) 및 VRAM 비용(24GB 권장)의 제한이 있지만, "1인 영화 스튜디오"의 문을 열었습니다.

미래 전망: 오디오 기억 저장소를 도입하여 성문 일관성 실현; 실시간 렌더링과 결합하여 인터랙티브 영화 및 게임의 무한 생성 가능성 탐구.

📄 논문 전문 읽기 (ArXiv)