カテゴリ
- すべての投稿 549
- 実用的なオープンソースプロジェクト 478
- チュートリアル記事 22
- オンラインユーティリティ 13
- AIニュース 7
- Tiny Startups Showcase 7
- Claude Code Skills 6
- プロンプトテンプレート 5
- Hugging Face Spaces 3
- OpenClaw Use Cases 3
- LLM Learning Resources 1
- Online AI Image Tools 1
- OpenClaw Master Skills Collection 1
- Rust Training Resources 1
- AI Short Drama Tools 1
- お気に入り 0
タグ付けされた投稿: Real-time AI
Content related to Real-time AI
Helios: 19.5 FPSでのリアルタイムビデオ生成 14B
PKU-YuanGroupの画期的な14Bパラメータビデオ生成モデルHeliosを発見してください。単一のH100 GPUで19.5 FPSの分単位高品質ビデオを生成します。ドリフト防止トリックなし、加速ハックなし - 純粋なアーキテクチャ革新だけ。T2V、I2V、V2V、およびインタラクティブ生成をサポートし、Diffusers、SGLang、vLLM-Omni、Ascend NPUにDay-0サポート。グループオフロードを使用して~6GB VRAMでローカル実行可能。完全トレーニングコードと3つのモデルバリアント (Base、Mid、Distilled) が今すぐ利用可能。
WhisperLiveKit:リアルタイムローカル音声認識
WhisperLiveKitは、リアルタイムかつ完全にローカルで動作する音声認識、翻訳、話者分離を実現する強力なオープンソースプロジェクトです。SimulStreamingやWhisperStreamingといった最先端の研究成果を活用し、優れた精度と低遅延を実現することで、従来の音声チャンク処理の限界を克服しています。 使いやすいサーバーとWeb UIを備えたWhisperLiveKitは、会議の文字起こしやアクセシビリティツールから、コンテンツ作成、カスタマーサービス分析まで、幅広いアプリケーションに最適です。pipによる簡単なインストール、さまざまなモデルやバックエンドに対応する豊富な設定オプション、Dockerを使用したCPUおよびGPU環境向けの堅牢なデプロイガイドを提供しています。
TEN VAD:高性能軽量音声活動検知器
TENフレームワークから、先進的で低レイテンシーの音声活動検出器(VAD)であるTEN VADをご紹介します。リアルタイムの対話型AI向けに設計されたTEN VADは、WebRTC VADやSilero VADといった業界標準と比較して、優れた精度と効率性を提供します。軽量なフットプリント、クロスプラットフォーム対応(Linux、Windows、macOS、Android、iOS、WASM経由のWeb)、そしてPython、JS、Cを含む包括的な言語サポートを誇ります。 このオープンソースプロジェクトは、エージェントフレンドリーな高性能音声アプリケーションを構築する開発者に最適です。正確な音声検出と、人間とエージェントのインタラクションにおけるレイテンシー削減のための堅牢な機能を提供します。TEN VADの機能、インストールガイド、そしてマルチモーダル対話型AIのための広範なTENエコシステムにどのように適合するかをご確認ください。
Airi:リアルタイムで会話できるオープンソースAI VTuber
リアルタイムの音声チャットはもちろん、MinecraftやFactorioまでプレイできるAI搭載バーチャルキャラクターの創出を目指す野心的なオープンソースプロジェクト、それが「Airi」です。WebGPUやWebAudioといったWeb技術を基盤とし、ブラウザでもデスクトップでもスムーズに動作するよう、アクセシビリティを追求して設計されています。 このプロジェクトが特にユニークなのは、AIワイフやバーチャルパーソナリティを私たちのデジタル世界にもたらすというビジョンの実現に、開発者、アーティスト、デザイナーといった様々な分野の方々の貢献を歓迎している点です。 現在の機能、今後の開発計画、そしてAI搭載バーチャルコンパニオンの未来を形作るこのプロジェクトにあなたがどう関われるのか、ぜひ詳細をご覧ください。