Helios: 19.5 FPSでのリアルタイムビデオ生成 14B
Helios: リアルタイム長ビデオ生成革命
1.3Bモデルより高速に動作する14Bモデル
PKU-YuanGroupのHeliosがビデオ生成を再定義します。この14Bパラメータモデルは、単一のH100 GPUで19.5 FPSの分単位高品質ビデオを生成(Ascend NPUで約10 FPS) - ドリフト防止戦略や加速トリックなし。
主なブレークスルー: - セルフフォーシング、エラーバンク、キーフレームサンプリングなし - KVキャッシュ、因果マスキング、量子化なし - 80GB GPUメモリに4×14Bモデルを収容 - 画像拡散スケールのトレーニングバッチサイズ
3つのモデルバリアントが利用可能
| モデル | 品質 | 速度 | スケジューラー |
|---|---|---|---|
| Helios-Base | 最高 | 標準 | HeliosScheduler + CFG |
| Helios-Mid | 中間 | 高速 | CFG-Zero* |
| Helios-Distilled | 良好 | 最速 | HeliosDMDScheduler |
Day-0エコシステムサポート
✅ HuggingFace Diffusers (標準 + モジュールパイプライン) ✅ SGLang-Diffusion (ネイティブ + Diffusersバックエンド) ✅ vLLM-Omni (完全分散サービング) ✅ Ascend NPU (Huaweiハードウェア) ✅ Cache-DiT (完全キャッシュ加速) ✅ Gradio Demo (SpacesでのAOTIコンパイル)
コンシューマハードウェアで実行 (~6GB VRAM)
CUDA_VISIBLE_DEVICES=0 python infer_helios.py \
--base_model_path "BestWishYsh/Helios-Distilled" \
--sample_type "t2v" \
--prompt "鮮やかな熱帯魚..." \
--num_frames 240 \
--enable_low_vram_mode \
--group_offloading_type "leaf_level"
マルチGPUコンテキストパラレリズム
4+ GPUにわたるUlysses Attention、Ring Attention、Unified Attentionをサポート:
CUDA_VISIBLE_DEVICES=0,1,2,3 torchrun --nproc_per_node 4 infer_helios.py \
--enable_parallelism --cp_backend "ulysses" \
--base_model_path "BestWishYsh/Helios-Base"
完全インストール (5分)
git clone --depth=1 https://github.com/PKU-YuanGroup/Helios.git
cd Helios
conda create -n helios python=3.11.2
conda activate helios
# PyTorchインストール + bash install.sh
huggingface-cli download BestWishYsh/Helios-Distilled
クイックスタートスクリプト
cd scripts/inference
bash helios-distilled_t2v.sh # テキスト-to-ビデオ
bash helios-distilled_i2v.sh # 画像-to-ビデオ
bash helios-distilled_v2v.sh # ビデオ-to-ビデオ
スクラッチからのトレーニング
DDPまたはDeepSpeedサポート付きの3段階プログレッシブパイプライン: 1. Stage-1: アーキテクチャ適応 (Unified History Injection) 2. Stage-2: Pyramid Unified Predictor Corrector 3. Stage-3: Adversarial Hierarchical Distillation
bash scripts/training/train_ddp.sh
パフォーマンスベンチマーク
| ハードウェア | FPS | VRAM | ビデオ長 |
|---|---|---|---|
| H100 | 19.5 | 24GB | 60s+ |
| RTX 4090 | 15+ | 6GB* | 30s+ |
| Ascend NPU | 10 | 24GB | 60s+ |
*グループオフロード付き
Heliosが重要な理由
- 本物のエンジニアリング: リサーチトリックなし、プロダクション準備完了
- 完全スタック: トレーニング + 推論 + デプロイ
- ハードウェア非依存: NVIDIA + Huawei + コンシューマGPU
- 開発者フレンドリー: 複数の推論バックエンド
- スケーラブル: 単一GPUからマルチノードクラスタ
今日から始めよう: GitHub | arXiv | HF Space
⭐ リポジトリをStarして、リアルタイムビデオ生成革命に参加!