LTX-2.3
開源 AI 影片生成新標竿。單模型擴散 Transformer (DiT) 架構,原生支援音畫同步生成。
什麼是 LTX-2.3?
LTX-2.3 是以色列公司 Lightricks 推出的開源 AI 影片生成模型,屬於 LTX-2 模型家族的最新迭代版本。它是一個單模型擴散 Transformer (DiT) 基礎模型,能同時生成高傳真影片 + 同步音訊(無需後期拼接)。
支援文字生成影片 (T2V)、圖像生成影片 (I2V)、音訊生成影片 (A2V) 等多種模式,已被社群譽為「開源版 Veo 3」,本機執行零成本、速度快、品質接近閉源頂級模型。
LTX-2.3 vs LTX-2:世代跨越
| 核心特性 | LTX-2 (前代) | LTX-2.3 (當前) |
|---|---|---|
| VAE 與 Latent 空間 | 標準解析度,細微處略顯模糊 | ✅ 全新重建,邊緣與紋理銳利度提升 40% |
| 提示詞遵循力 | 複雜指令易產生偏移 | ✅ 文字連接器擴充 4 倍,支援多主體空間描述 |
| 圖像生影片一致性 | 偶發「凍結影格」或跳變 | ✅ 極高的一致性,減少 Ken Burns 效果異常 |
| 音訊品質 | 背景噪音明顯,對齊精度一般 | ✅ 錄音級純淨,口型與節奏毫秒級對齊 |
LTX-2.3 進階提示詞指南
按時間順序描述:使用「首先...接著...最後...」的結構描述動作,LTX-2.3 能很好地理解時間序列。
電影化鏡頭語言:明確指定「低角度特寫」、「搖臂鏡頭」或「手持攝影」,模型對鏡頭術語支援極佳。
光影描述:增加「體積光」、「賽博龐克霓虹」或「黃金小時光效」等詞彙,畫質會有質的飛躍。
音訊提示詞:在 T2V 提示詞中加入「背景伴隨重低音」、「雨聲淅瀝」等描述,可直接引導生成的音訊。
四大核心升級
Lightricks 基於生產環境的深度最佳化
更銳利的細節
頭髮、紋理、小物件、文字、邊緣更清晰銳利,減少後期銳化需求。
更強的提示詞遵循
新 gated attention 機制,複雜提示理解更準確,漂移大幅減少。
更真實的圖像生影片
減少「凍結影格」和意外切斷,生產管線廢片率大幅下降。
更乾淨的音訊
訓練資料過濾最佳化 + 新 vocoder,偽影減少、對齊更緊密。
額外亮點
原生直式支援
1080×1920 解析度,專為 TikTok/Reels/Shorts 訓練。
音訊引導影片
語音/音樂可直接驅動動作、節奏、口型同步,適合虛擬實況主 (VTuber)。
多模態控制
支援多關鍵影格、深度/姿態/Canny 控制、LoRA 微調。
技術規格
如何本機執行
- 01 推薦使用 ComfyUI-LTXVideo 自訂節點。
- 02 支援官方推論腳本、LTX CLI 及 Fal.ai 雲端。
- 03 LTX Desktop:基於 LTX-2.3 引擎的開源專業影片編輯器。
資源連結
注意事項與局限性
"LTX-2.3 是目前開源影片模型裡音畫同步 + 細節 + 速度 + 可本機部署的最強方案之一,是短影音創作者的生產力利器。"