LTX-2.3
开源 AI 视频生成新标杆。单模型扩散 Transformer (DiT) 架构,原生支持音画同步生成。
什么是 LTX-2.3?
LTX-2.3 是以色列公司 Lightricks 推出的开源 AI 视频生成模型,属于 LTX-2 模型家族的最新迭代版本。它是一个单模型扩散 Transformer (DiT) 基础模型,能同时生成高保真视频 + 同步音频(无需后期拼接)。
支持文本生视频 (T2V)、图像生视频 (I2V)、音频生视频 (A2V) 等多种模式,已被社区誉为“开源版 Veo 3”,本地运行零成本、速度快、质量接近闭源顶级模型。
LTX-2.3 vs LTX-2:代际跨越
| 核心特性 | LTX-2 (前代) | LTX-2.3 (当前) |
|---|---|---|
| VAE 与 Latent 空间 | 标准清晰度,细微处略显模糊 | ✅ 全新重建,边缘与纹理锐利度提升 40% |
| 提示词遵循力 | 复杂指令易产生偏移 | ✅ 文本连接器扩容 4 倍,支持多主体空间描述 |
| 图像生视频一致性 | 偶发“冻结帧”或跳变 | ✅ 极高的一致性,减少 Ken Burns 效果异常 |
| 音频质量 | 背景噪音明显,对齐精度一般 | ✅ 录音级纯净,口型与节奏毫秒级对齐 |
LTX-2.3 高级提示词指南
按时间顺序描述:使用“首先...接着...最后...”的结构描述动作,LTX-2.3 能很好地理解时间序列。
电影化镜头语言:明确指定“低角度特写”、“摇臂镜头”或“手持摄影”,模型对镜头术语支持极佳。
光影描述:增加“体积光”、“赛博朋克霓虹”或“黄金小时光效”等词汇,画质会有质的飞跃。
音频提示词:在 T2V 提示词中加入“背景伴随重低音”、“雨声淅沥”等描述,可直接引导生成的音频。
四大核心升级
Lightricks 基于生产环境的深度优化
更锐利的细节
头发、纹理、小物体、文字、边缘更清晰锐利,减少后期锐化需求。
更强的提示词遵循
新 gated attention 机制,复杂提示理解更准确,漂移大幅减少。
更真实的图像生视频
减少“冻结帧”和意外切断,生产流水线废片率大幅下降。
更干净的音频
训练数据过滤优化 + 新 vocoder,伪影减少、对齐更紧。
额外亮点
原生纵版支持
1080×1920 分辨率,专为 TikTok/Reels/Shorts 训练。
音频引导视频
语音/音乐可直接驱动动作、节奏、口型同步,适合虚拟主播。
多模态控制
支持多关键帧、深度/姿态/Canny 控制、LoRA 微调。
技术规格
注意事项与局限性
"LTX-2.3 是目前开源视频模型里音画同步 + 细节 + 速度 + 可本地部署的最强方案之一,是短视频创作者的生产力利器。"