Lightricks 2026.03 重磅發布

LTX-2.3

開源 AI 影片生成新標竿。單模型擴散 Transformer (DiT) 架構,原生支援音畫同步生成。

20s
最長生成
1080P
原生直式
50 FPS
高影格率支援
Sync
音畫同步

什麼是 LTX-2.3?

LTX-2.3 是以色列公司 Lightricks 推出的開源 AI 影片生成模型,屬於 LTX-2 模型家族的最新迭代版本。它是一個單模型擴散 Transformer (DiT) 基礎模型,能同時生成高傳真影片 + 同步音訊(無需後期拼接)。

支援文字生成影片 (T2V)、圖像生成影片 (I2V)、音訊生成影片 (A2V) 等多種模式,已被社群譽為「開源版 Veo 3」,本機執行零成本、速度快、品質接近閉源頂級模型。

LTX-2.3 vs LTX-2:世代跨越

核心特性LTX-2 (前代)LTX-2.3 (當前)
VAE 與 Latent 空間標準解析度,細微處略顯模糊✅ 全新重建,邊緣與紋理銳利度提升 40%
提示詞遵循力複雜指令易產生偏移✅ 文字連接器擴充 4 倍,支援多主體空間描述
圖像生影片一致性偶發「凍結影格」或跳變✅ 極高的一致性,減少 Ken Burns 效果異常
音訊品質背景噪音明顯,對齊精度一般✅ 錄音級純淨,口型與節奏毫秒級對齊

LTX-2.3 進階提示詞指南

按時間順序描述:使用「首先...接著...最後...」的結構描述動作,LTX-2.3 能很好地理解時間序列。

電影化鏡頭語言:明確指定「低角度特寫」、「搖臂鏡頭」或「手持攝影」,模型對鏡頭術語支援極佳。

光影描述:增加「體積光」、「賽博龐克霓虹」或「黃金小時光效」等詞彙,畫質會有質的飛躍。

音訊提示詞:在 T2V 提示詞中加入「背景伴隨重低音」、「雨聲淅瀝」等描述,可直接引導生成的音訊。

四大核心升級

Lightricks 基於生產環境的深度最佳化

更銳利的細節

頭髮、紋理、小物件、文字、邊緣更清晰銳利,減少後期銳化需求。

更強的提示詞遵循

新 gated attention 機制,複雜提示理解更準確,漂移大幅減少。

更真實的圖像生影片

減少「凍結影格」和意外切斷,生產管線廢片率大幅下降。

更乾淨的音訊

訓練資料過濾最佳化 + 新 vocoder,偽影減少、對齊更緊密。

額外亮點

原生直式支援

1080×1920 解析度,專為 TikTok/Reels/Shorts 訓練。

音訊引導影片

語音/音樂可直接驅動動作、節奏、口型同步,適合虛擬實況主 (VTuber)。

多模態控制

支援多關鍵影格、深度/姿態/Canny 控制、LoRA 微調。

技術規格

解析度 最高 1080p (原生直式 1080×1920),支援 4K 放大
時長 最高 20 秒 (支援延長)
影格率 24 / 48 / 50 FPS
模型大小 基礎版約 22B 參數
生成速度 本機版幾秒到幾十秒 (視 VRAM 而定)
授權條款 LTX Community License (年營收 <$10M 免費商用)

可用版本與下載

全部模型已在 Hugging Face 開源。

LTX-2.3-22B-Dev

完整可訓練版 (bf16),追求最高畫質必選。

LTX-2.3-22B-Distilled

蒸餾版,8 步生成,效率之王。

FP8 量化版

12GB VRAM 顯示卡首選,畫質損失極小。

如何本機執行

  • 01 推薦使用 ComfyUI-LTXVideo 自訂節點。
  • 02 支援官方推論腳本、LTX CLI 及 Fal.ai 雲端。
  • 03 LTX Desktop:基於 LTX-2.3 引擎的開源專業影片編輯器。

注意事項與局限性

建議使用 Chronological(按時間序列)提示詞結構。 模型生成對 VRAM 有一定要求,低 VRAM 使用者建議開啟量化。 生成的影片可能帶有社會偏見,請遵循社群規範。

"LTX-2.3 是目前開源影片模型裡音畫同步 + 細節 + 速度 + 可本機部署的最強方案之一,是短影音創作者的生產力利器。"

© 2026 wan2.video