Lightricks 2026.03 重磅发布

LTX-2.3

开源 AI 视频生成新标杆。单模型扩散 Transformer (DiT) 架构，原生支持音画同步生成。

20s

最长生成

1080P

原生纵版

50 FPS

高帧率支持

Sync

音画同步

什么是 LTX-2.3？

LTX-2.3 是以色列公司 Lightricks 推出的开源 AI 视频生成模型，属于 LTX-2 模型家族的最新迭代版本。它是一个单模型扩散 Transformer (DiT) 基础模型，能同时生成高保真视频 + 同步音频（无需后期拼接）。

支持文本生视频 (T2V)、图像生视频 (I2V)、音频生视频 (A2V) 等多种模式，已被社区誉为“开源版 Veo 3”，本地运行零成本、速度快、质量接近闭源顶级模型。

LTX-2.3 vs LTX-2：代际跨越

核心特性	LTX-2 (前代)	LTX-2.3 (当前)
VAE 与 Latent 空间	标准清晰度，细微处略显模糊	✅ 全新重建，边缘与纹理锐利度提升 40%
提示词遵循力	复杂指令易产生偏移	✅ 文本连接器扩容 4 倍，支持多主体空间描述
图像生视频一致性	偶发“冻结帧”或跳变	✅ 极高的一致性，减少 Ken Burns 效果异常
音频质量	背景噪音明显，对齐精度一般	✅ 录音级纯净，口型与节奏毫秒级对齐

LTX-2.3 高级提示词指南

按时间顺序描述：使用“首先...接着...最后...”的结构描述动作，LTX-2.3 能很好地理解时间序列。

电影化镜头语言：明确指定“低角度特写”、“摇臂镜头”或“手持摄影”，模型对镜头术语支持极佳。

光影描述：增加“体积光”、“赛博朋克霓虹”或“黄金小时光效”等词汇，画质会有质的飞跃。

音频提示词：在 T2V 提示词中加入“背景伴随重低音”、“雨声淅沥”等描述，可直接引导生成的音频。

四大核心升级

Lightricks 基于生产环境的深度优化

更锐利的细节

头发、纹理、小物体、文字、边缘更清晰锐利，减少后期锐化需求。

更强的提示词遵循

新 gated attention 机制，复杂提示理解更准确，漂移大幅减少。

更真实的图像生视频

减少“冻结帧”和意外切断，生产流水线废片率大幅下降。

更干净的音频

训练数据过滤优化 + 新 vocoder，伪影减少、对齐更紧。

额外亮点

原生纵版支持

1080×1920 分辨率，专为 TikTok/Reels/Shorts 训练。

音频引导视频

语音/音乐可直接驱动动作、节奏、口型同步，适合虚拟主播。

多模态控制

支持多关键帧、深度/姿态/Canny 控制、LoRA 微调。

技术规格

分辨率最高 1080p (原生纵版 1080×1920)，支持 4K 放大

时长最高 20 秒 (支持延长)

帧率 24 / 48 / 50 FPS

模型大小基础版约 22B 参数

生成速度本地版几秒到几十秒 (视显存而定)

许可证 LTX Community License (年营收 <$10M 免费商用)

可用版本与下载

全部模型已在 Hugging Face 开源。

LTX-2.3-22B-Dev

完整可训练版 (bf16)，追求最高画质必选。

Download

LTX-2.3-22B-Distilled

蒸馏版，8 步生成，效率之王。

Download

FP8 量化版

12GB 显存显卡首选，画质损失极小。

Download

如何本地运行

01 推荐使用 ComfyUI-LTXVideo 自定义节点。
02 支持官方推理脚本、LTX CLI 及 Fal.ai 云端。
03 LTX Desktop：基于 LTX-2.3 引擎的开源专业视频编辑器。

资源链接

官方介绍页发布博客文档中心 GitHub 仓库

注意事项与局限性

建议使用 Chronological（按时间序列）提示词结构。模型生成对显存有一定要求，低显存用户建议开启量化。生成的视频可能带有社会偏见，请遵循社区规范。

"LTX-2.3 是目前开源视频模型里音画同步 + 细节 + 速度 + 可本地部署的最强方案之一，是短视频创作者的生产力利器。"