Lightricks 2026.03 重磅發布

LTX-2.3

開源 AI 影片生成新標竿。單模型擴散 Transformer (DiT) 架構，原生支援音畫同步生成。

20s

最長生成

1080P

原生直式

50 FPS

高影格率支援

Sync

音畫同步

什麼是 LTX-2.3？

LTX-2.3 是以色列公司 Lightricks 推出的開源 AI 影片生成模型，屬於 LTX-2 模型家族的最新迭代版本。它是一個單模型擴散 Transformer (DiT) 基礎模型，能同時生成高傳真影片 + 同步音訊（無需後期拼接）。

支援文字生成影片 (T2V)、圖像生成影片 (I2V)、音訊生成影片 (A2V) 等多種模式，已被社群譽為「開源版 Veo 3」，本機執行零成本、速度快、品質接近閉源頂級模型。

LTX-2.3 vs LTX-2：世代跨越

核心特性	LTX-2 (前代)	LTX-2.3 (當前)
VAE 與 Latent 空間	標準解析度，細微處略顯模糊	✅ 全新重建，邊緣與紋理銳利度提升 40%
提示詞遵循力	複雜指令易產生偏移	✅ 文字連接器擴充 4 倍，支援多主體空間描述
圖像生影片一致性	偶發「凍結影格」或跳變	✅ 極高的一致性，減少 Ken Burns 效果異常
音訊品質	背景噪音明顯，對齊精度一般	✅ 錄音級純淨，口型與節奏毫秒級對齊

LTX-2.3 進階提示詞指南

按時間順序描述：使用「首先...接著...最後...」的結構描述動作，LTX-2.3 能很好地理解時間序列。

電影化鏡頭語言：明確指定「低角度特寫」、「搖臂鏡頭」或「手持攝影」，模型對鏡頭術語支援極佳。

光影描述：增加「體積光」、「賽博龐克霓虹」或「黃金小時光效」等詞彙，畫質會有質的飛躍。

音訊提示詞：在 T2V 提示詞中加入「背景伴隨重低音」、「雨聲淅瀝」等描述，可直接引導生成的音訊。

四大核心升級

Lightricks 基於生產環境的深度最佳化

更銳利的細節

頭髮、紋理、小物件、文字、邊緣更清晰銳利，減少後期銳化需求。

更強的提示詞遵循

新 gated attention 機制，複雜提示理解更準確，漂移大幅減少。

更真實的圖像生影片

減少「凍結影格」和意外切斷，生產管線廢片率大幅下降。

更乾淨的音訊

訓練資料過濾最佳化 + 新 vocoder，偽影減少、對齊更緊密。

額外亮點

原生直式支援

1080×1920 解析度，專為 TikTok/Reels/Shorts 訓練。

音訊引導影片

語音/音樂可直接驅動動作、節奏、口型同步，適合虛擬實況主 (VTuber)。

多模態控制

支援多關鍵影格、深度/姿態/Canny 控制、LoRA 微調。

技術規格

解析度最高 1080p (原生直式 1080×1920)，支援 4K 放大

時長最高 20 秒 (支援延長)

影格率 24 / 48 / 50 FPS

模型大小基礎版約 22B 參數

生成速度本機版幾秒到幾十秒 (視 VRAM 而定)

授權條款 LTX Community License (年營收 <$10M 免費商用)

可用版本與下載

全部模型已在 Hugging Face 開源。

LTX-2.3-22B-Dev

完整可訓練版 (bf16)，追求最高畫質必選。

Download

LTX-2.3-22B-Distilled

蒸餾版，8 步生成，效率之王。

Download

FP8 量化版

12GB VRAM 顯示卡首選，畫質損失極小。

Download

如何本機執行

01 推薦使用 ComfyUI-LTXVideo 自訂節點。
02 支援官方推論腳本、LTX CLI 及 Fal.ai 雲端。
03 LTX Desktop：基於 LTX-2.3 引擎的開源專業影片編輯器。

資源連結

官方介紹頁發布部落格文件中心 GitHub 儲存庫

注意事項與局限性

建議使用 Chronological（按時間序列）提示詞結構。模型生成對 VRAM 有一定要求，低 VRAM 使用者建議開啟量化。生成的影片可能帶有社會偏見，請遵循社群規範。

"LTX-2.3 是目前開源影片模型裡音畫同步 + 細節 + 速度 + 可本機部署的最強方案之一，是短影音創作者的生產力利器。"