Helios: 19.5 FPSでのリアルタイムビデオ生成 14B

Helios: リアルタイム長ビデオ生成革命

1.3Bモデルより高速に動作する14Bモデル

PKU-YuanGroupのHeliosがビデオ生成を再定義します。この14Bパラメータモデルは、単一のH100 GPUで19.5 FPSの分単位高品質ビデオを生成(Ascend NPUで約10 FPS) - ドリフト防止戦略や加速トリックなし。

主なブレークスルー: - セルフフォーシング、エラーバンク、キーフレームサンプリングなし - KVキャッシュ、因果マスキング、量子化なし - 80GB GPUメモリに4×14Bモデルを収容 - 画像拡散スケールのトレーニングバッチサイズ

3つのモデルバリアントが利用可能

モデル 品質 速度 スケジューラー
Helios-Base 最高 標準 HeliosScheduler + CFG
Helios-Mid 中間 高速 CFG-Zero*
Helios-Distilled 良好 最速 HeliosDMDScheduler

Day-0エコシステムサポート

HuggingFace Diffusers (標準 + モジュールパイプライン) ✅ SGLang-Diffusion (ネイティブ + Diffusersバックエンド) ✅ vLLM-Omni (完全分散サービング) ✅ Ascend NPU (Huaweiハードウェア) ✅ Cache-DiT (完全キャッシュ加速) ✅ Gradio Demo (SpacesでのAOTIコンパイル)

コンシューマハードウェアで実行 (~6GB VRAM)

CUDA_VISIBLE_DEVICES=0 python infer_helios.py \
--base_model_path "BestWishYsh/Helios-Distilled" \
--sample_type "t2v" \
--prompt "鮮やかな熱帯魚..." \
--num_frames 240 \
--enable_low_vram_mode \
--group_offloading_type "leaf_level"

マルチGPUコンテキストパラレリズム

4+ GPUにわたるUlysses Attention、Ring Attention、Unified Attentionをサポート:

CUDA_VISIBLE_DEVICES=0,1,2,3 torchrun --nproc_per_node 4 infer_helios.py \
--enable_parallelism --cp_backend "ulysses" \
--base_model_path "BestWishYsh/Helios-Base"

完全インストール (5分)

git clone --depth=1 https://github.com/PKU-YuanGroup/Helios.git
cd Helios
conda create -n helios python=3.11.2
conda activate helios
# PyTorchインストール + bash install.sh
huggingface-cli download BestWishYsh/Helios-Distilled

クイックスタートスクリプト

cd scripts/inference
bash helios-distilled_t2v.sh  # テキスト-to-ビデオ
bash helios-distilled_i2v.sh  # 画像-to-ビデオ
bash helios-distilled_v2v.sh  # ビデオ-to-ビデオ

スクラッチからのトレーニング

DDPまたはDeepSpeedサポート付きの3段階プログレッシブパイプライン: 1. Stage-1: アーキテクチャ適応 (Unified History Injection) 2. Stage-2: Pyramid Unified Predictor Corrector 3. Stage-3: Adversarial Hierarchical Distillation

bash scripts/training/train_ddp.sh

パフォーマンスベンチマーク

ハードウェア FPS VRAM ビデオ長
H100 19.5 24GB 60s+
RTX 4090 15+ 6GB* 30s+
Ascend NPU 10 24GB 60s+

*グループオフロード付き

Heliosが重要な理由

  1. 本物のエンジニアリング: リサーチトリックなし、プロダクション準備完了
  2. 完全スタック: トレーニング + 推論 + デプロイ
  3. ハードウェア非依存: NVIDIA + Huawei + コンシューマGPU
  4. 開発者フレンドリー: 複数の推論バックエンド
  5. スケーラブル: 単一GPUからマルチノードクラスタ

今日から始めよう: GitHub | arXiv | HF Space

リポジトリをStarして、リアルタイムビデオ生成革命に参加!

この記事を共有