Lightricks 2026.03 重磅发布

LTX-2.3

开源 AI 视频生成新标杆。单模型扩散 Transformer (DiT) 架构,原生支持音画同步生成。

20s
最长生成
1080P
原生纵版
50 FPS
高帧率支持
Sync
音画同步

什么是 LTX-2.3?

LTX-2.3 是以色列公司 Lightricks 推出的开源 AI 视频生成模型,属于 LTX-2 模型家族的最新迭代版本。它是一个单模型扩散 Transformer (DiT) 基础模型,能同时生成高保真视频 + 同步音频(无需后期拼接)。

支持文本生视频 (T2V)、图像生视频 (I2V)、音频生视频 (A2V) 等多种模式,已被社区誉为“开源版 Veo 3”,本地运行零成本、速度快、质量接近闭源顶级模型。

LTX-2.3 vs LTX-2:代际跨越

核心特性LTX-2 (前代)LTX-2.3 (当前)
VAE 与 Latent 空间标准清晰度,细微处略显模糊✅ 全新重建,边缘与纹理锐利度提升 40%
提示词遵循力复杂指令易产生偏移✅ 文本连接器扩容 4 倍,支持多主体空间描述
图像生视频一致性偶发“冻结帧”或跳变✅ 极高的一致性,减少 Ken Burns 效果异常
音频质量背景噪音明显,对齐精度一般✅ 录音级纯净,口型与节奏毫秒级对齐

LTX-2.3 高级提示词指南

按时间顺序描述:使用“首先...接着...最后...”的结构描述动作,LTX-2.3 能很好地理解时间序列。

电影化镜头语言:明确指定“低角度特写”、“摇臂镜头”或“手持摄影”,模型对镜头术语支持极佳。

光影描述:增加“体积光”、“赛博朋克霓虹”或“黄金小时光效”等词汇,画质会有质的飞跃。

音频提示词:在 T2V 提示词中加入“背景伴随重低音”、“雨声淅沥”等描述,可直接引导生成的音频。

四大核心升级

Lightricks 基于生产环境的深度优化

更锐利的细节

头发、纹理、小物体、文字、边缘更清晰锐利,减少后期锐化需求。

更强的提示词遵循

新 gated attention 机制,复杂提示理解更准确,漂移大幅减少。

更真实的图像生视频

减少“冻结帧”和意外切断,生产流水线废片率大幅下降。

更干净的音频

训练数据过滤优化 + 新 vocoder,伪影减少、对齐更紧。

额外亮点

原生纵版支持

1080×1920 分辨率,专为 TikTok/Reels/Shorts 训练。

音频引导视频

语音/音乐可直接驱动动作、节奏、口型同步,适合虚拟主播。

多模态控制

支持多关键帧、深度/姿态/Canny 控制、LoRA 微调。

技术规格

分辨率 最高 1080p (原生纵版 1080×1920),支持 4K 放大
时长 最高 20 秒 (支持延长)
帧率 24 / 48 / 50 FPS
模型大小 基础版约 22B 参数
生成速度 本地版几秒到几十秒 (视显存而定)
许可证 LTX Community License (年营收 <$10M 免费商用)

可用版本与下载

全部模型已在 Hugging Face 开源。

LTX-2.3-22B-Dev

完整可训练版 (bf16),追求最高画质必选。

LTX-2.3-22B-Distilled

蒸馏版,8 步生成,效率之王。

FP8 量化版

12GB 显存显卡首选,画质损失极小。

如何本地运行

  • 01 推荐使用 ComfyUI-LTXVideo 自定义节点。
  • 02 支持官方推理脚本、LTX CLI 及 Fal.ai 云端。
  • 03 LTX Desktop:基于 LTX-2.3 引擎的开源专业视频编辑器。

注意事项与局限性

建议使用 Chronological(按时间序列)提示词结构。 模型生成对显存有一定要求,低显存用户建议开启量化。 生成的视频可能带有社会偏见,请遵循社区规范。

"LTX-2.3 是目前开源视频模型里音画同步 + 细节 + 速度 + 可本地部署的最强方案之一,是短视频创作者的生产力利器。"

© 2026 wan2.video