Helios: 19.5 FPSでのリアルタイムビデオ生成 14B

March 25, 2026

タグ:

Open Source Real-time AI HuggingFace Video Generation diffusion-models

Helios: リアルタイム長ビデオ生成革命

1.3Bモデルより高速に動作する14Bモデル

PKU-YuanGroupのHeliosがビデオ生成を再定義します。この14Bパラメータモデルは、単一のH100 GPUで19.5 FPSの分単位高品質ビデオを生成（Ascend NPUで約10 FPS） - ドリフト防止戦略や加速トリックなし。

主なブレークスルー： - セルフフォーシング、エラーバンク、キーフレームサンプリングなし - KVキャッシュ、因果マスキング、量子化なし - 80GB GPUメモリに4×14Bモデルを収容 - 画像拡散スケールのトレーニングバッチサイズ

3つのモデルバリアントが利用可能

モデル	品質	速度	スケジューラー
Helios-Base	最高	標準	HeliosScheduler + CFG
Helios-Mid	中間	高速	CFG-Zero*
Helios-Distilled	良好	最速	HeliosDMDScheduler

✅ HuggingFace Diffusers (標準 + モジュールパイプライン) ✅ SGLang-Diffusion (ネイティブ + Diffusersバックエンド) ✅ vLLM-Omni (完全分散サービング) ✅ Ascend NPU (Huaweiハードウェア) ✅ Cache-DiT (完全キャッシュ加速) ✅ Gradio Demo (SpacesでのAOTIコンパイル)

コンシューマハードウェアで実行 (~6GB VRAM)

CUDA_VISIBLE_DEVICES=0 python infer_helios.py \
--base_model_path "BestWishYsh/Helios-Distilled" \
--sample_type "t2v" \
--prompt "鮮やかな熱帯魚..." \
--num_frames 240 \
--enable_low_vram_mode \
--group_offloading_type "leaf_level"

マルチGPUコンテキストパラレリズム

4+ GPUにわたるUlysses Attention、Ring Attention、Unified Attentionをサポート：

CUDA_VISIBLE_DEVICES=0,1,2,3 torchrun --nproc_per_node 4 infer_helios.py \
--enable_parallelism --cp_backend "ulysses" \
--base_model_path "BestWishYsh/Helios-Base"

完全インストール (5分)

git clone --depth=1 https://github.com/PKU-YuanGroup/Helios.git
cd Helios
conda create -n helios python=3.11.2
conda activate helios
# PyTorchインストール + bash install.sh
huggingface-cli download BestWishYsh/Helios-Distilled

クイックスタートスクリプト

cd scripts/inference
bash helios-distilled_t2v.sh  # テキスト-to-ビデオ
bash helios-distilled_i2v.sh  # 画像-to-ビデオ
bash helios-distilled_v2v.sh  # ビデオ-to-ビデオ

スクラッチからのトレーニング

DDPまたはDeepSpeedサポート付きの3段階プログレッシブパイプライン： 1. Stage-1: アーキテクチャ適応 (Unified History Injection) 2. Stage-2: Pyramid Unified Predictor Corrector 3. Stage-3: Adversarial Hierarchical Distillation

bash scripts/training/train_ddp.sh

パフォーマンスベンチマーク

ハードウェア	FPS	VRAM	ビデオ長
H100	19.5	24GB	60s+
RTX 4090	15+	6GB*	30s+
Ascend NPU	10	24GB	60s+

*グループオフロード付き

Heliosが重要な理由

本物のエンジニアリング: リサーチトリックなし、プロダクション準備完了
完全スタック: トレーニング + 推論 + デプロイ
ハードウェア非依存: NVIDIA + Huawei + コンシューマGPU
開発者フレンドリー: 複数の推論バックエンド
スケーラブル: 単一GPUからマルチノードクラスタ

今日から始めよう: GitHub | arXiv | HF Space

⭐ リポジトリをStarして、リアルタイムビデオ生成革命に参加！

元の記事: オリジナルを見る