Lightricks 2026.03 リリース

LTX-2.3

オープンソースAI動画の新たなベンチマーク。音声同期をネイティブサポートする単一モデルDiTアーキテクチャ。

20秒

最大生成時間

1080P

ネイティブ縦型

50 FPS

高フレームレート

Sync

音声同期

LTX-2.3とは？

LTX-2.3は、イスラエルの企業Lightricksが発表したオープンソースのAI動画生成モデルで、LTX-2ファミリの最新バージョンです。高忠実度の動画と同期した音声を同時に生成できる単一モデルのDiffusion Transformer (DiT) ベースモデルです。

テキストからの動画生成(T2V)、画像からの動画生成(I2V)、音声からの動画生成(A2V)をサポートし、コミュニティからは「オープンソース版 Veo 3」と称賛されています。ローカルでのコストゼロ実行、高速処理、クローズドソースのトップモデルに迫る品質を提供します。

LTX-2.3 vs LTX-2

コア機能	LTX-2 (旧)	LTX-2.3 (最新)
VAEと潜在空間	標準的な解像度	✅ 再構築によりテクスチャのシャープネスが40%向上
プロンプト遵守率	複雑な指示でズレが生じやすい	✅ ゲート付きアテンションでテキスト容量が4倍に
I2Vの一貫性	時折「フリーズフレーム」が発生	✅ 非常に高い一貫性、アーティファクトを削減
音声品質	目立つバックグラウンドノイズ	✅ スタジオ品質のクリアさ、ミリ秒レベルの同期

LTX-2.3 高度なプロンプトガイド

時系列順: アクションを「まず...次に...最後に...」とステップ順に説明します。

映画的キーワード: 「クローズアップ」や「クレーンショット」などを指定します。

ライティング: 「ボリュメトリックライト」や「ネオン」を追加して画質を向上させます。

音声タグ: プロンプトに「重低音」や「雨の音」を含めることで音声を誘導できます。

4つのコアな改善点

プロフェッショナルな制作向けに最適化

よりシャープなディテール

髪の毛、テクスチャ、エッジがより鮮明に。

より強力なプロンプト理解

複雑なプロンプト向けの新しいゲート付きアテンション。

リアルなI2V

フリーズフレームを減らし、一貫性を向上。

クリーンな音声

最適化されたフィルタリングと新しいボコーダー。

ハイライト

ネイティブ縦型

TikTokやShorts向けの1080x1920。

音声ガイド付き動画

音声がモーションとリップシンクを駆動。

マルチモーダル

キーフレーム、Depth/Pose/Cannyをサポート。

技術仕様

解像度最大1080p (ネイティブ縦型)、4Kアップスケール

長さ最大20秒 (延長可能)

フレームレート 24 / 48 / 50 FPS

モデルサイズ約22Bパラメータ

生成速度ローカルで数秒〜数十秒 (VRAMに依存)

ライセンス LTX Community (年間収益1000万ドル未満は無料)

ダウンロード

Hugging Faceで利用可能。

LTX-2.3-22B-Dev

フルbf16バージョン、最高品質。

Download

LTX-2.3-22B-Distilled

蒸留バージョン、8ステップの効率性。

Download

FP8 量子化

12GB VRAMに最適。

Download

ローカルでの実行

01 推奨: ComfyUI-LTXVideo カスタムノード。
02 公式スクリプト、CLI、Fal.aiをサポート。
03 LTX Desktop: オープンソースのプロフェッショナルエディタ。

リンク

公式ページリリースブログドキュメント GitHub

注意事項

時系列のプロンプト構造を使用してください。 VRAMが少ない場合は量子化を推奨します。コミュニティの安全ガイドラインに従ってください。

"LTX-2.3は、同期された動画/音声を提供する、オープンソースの最強ソリューションです。"