RCLI:macOS用オンデバイス音声AI – Zero-Cloud、高速
RCLIとは?
RCLI(RunAnywhere Command‑Line Interface)は、macOS向けの完全ローカル型オープンソース音声アシスタントです。Speech‑to‑Text(STT)エンジン、Large‑Language Model(LLM)、Text‑to‑Speech(TTS)を統合し、Apple Silicon の GPU 上で独自の MetalRT 推論エンジンを使用してすべて実行します。結果として、データをクラウドに送信せずに、音声操作でアプリケーションを制御し、ローカルドキュメントから情報を取得し、リアルタイムで回答する音声アクティベートマックが実現します。
主要ポイント
- 38種類のmacOSアクション(Spotify再生、音量調整、スクリーンショット取得、URLオープンなど)を音声またはテキストで実行可能。
- PDF、DOCX、プレーンテキストをハイブリッドベクター+BM25検索でインデックス化し、約4 msでRAG(Retrieval‑Augmented Generation)を実行。
- 発話から返信を聞くまでのエンドツーエンドレイテンシは200 ms未満。
- 外部APIに頼らず、APIキー不要。
- ターミナルベースのインタラクティブUIでモデル、アクション、MetalRTエンジンを管理可能。
インストール
RCLI は Homebrew あるいは単一スクリプトでインストールできます。最速設定は以下を実行。
curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash
または Homebrew で。
brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup # 初回起動時に約1 GBのローカルモデルをダウンロード
macOS 13+ で Apple Silicon(M3以降推奨)を搭載した Mac では MetalRT GPU エンジンが自動で使用されます。M1/M2 の Mac では、fast open‑source llama.cpp 実装にフォールバックします。
クイック‑スタートコマンド
| コマンド | 役割 |
|---|---|
rcli |
インタラクティブ TUI を起動(Push‑to‑talk またはテキスト入力) |
rcli listen |
持続的音声モード(話すだけで実行) |
rcli ask "open Safari" |
テキストまたは音声でワンショットコマンド |
rcli metalrt |
MetalRT GPU エンジン管理 |
rcli llamacpp |
Llama.cpp エンジン管理 |
TUI では A でアクションの有効化/無効化、M でモデル一覧表示、R で RAG 用ドキュメントインポート、X で会話コンテキストクリアができます。
機能詳細
1. フル機能音声パイプライン
- VAD – Silero Voice Activity Detection。
- STT – Whisper Tiny/Small/Medium、または Zipformer ストリーミング版。
- LLM – Qwen3、LFM2 系列、または Qwen3.5。すべて MetalRT に Flash Attention 付きでロード。
- TTS – Kokoro 音声または代替TTS エンジン。
- Tool‑Calling – Qwen3、LFM2 のネイティブツール呼び出しを使い macOS アクションを実現。
2. 38 つの macOS アクション
RCLI は LLM のインテントを AppleScript やシェルコマンドへマッピングします。主なカテゴリは次の通り。 - 生産性 – ノート作成、リマインダー設定、ショートカット実行。 - コミュニケーション – メッセージ送信、FaceTime 通話開始。 - メディア – Spotify、Apple Music 操作、音量調整。 - システム – アプリ起動/終了、画面ロック、ダークモード切替。 - ウェブ – 検索、URL オープン、地図開く。
3. ローカル RAG
rcli rag ingest ~/Documents でフォルダをインデックス化。クエリはハイブリッド検索エンジンで処理され、デバイス上のみで完結。数千チャンクを扱っても約4 ms の応答速度でリアルタイムドキュメント Q&A が可能。
4. ベンチマーク
- MetalRT デコードスループット:最大 550 tokens/s、lama.cpp や Apple MLX を M3 Max で上回る。
- リアルタイム性:MetalRT STT は実時間の714×速い、全体パイプラインは200 ms 未満。
参加方法
RCLI は Pull Request を歓迎しています。貢献方法は以下の通り。 - 新しい macOS アクションを追加、あるいは既存の改善。 - モデル(LLM、STT、TTS)追加。 - TUI の改善や新しいドキュメント追加。
CONTRIBUTING.md にビルド手順があります。
無料か?
リポジトリは MIT ライセンス。MetalRT GPU エンジン自体は専有ですが、個人または商用プロジェクトで無料利用できます(ベンダーへ連絡)。
まとめ
RCLI はクラウドサービスや API キーを必要とせず、macOS 上でローカルに実行できる音声ソリューションを提供します。増えていくローカル実行アクション、リアルタイム RAG、そして Lightning‑fast MetalRT 推論で、プライバシー重視の音声アシスタントを開発したいエンジニアや、Mac を即座に制御したいパワーユーザーにとって理想的です。
次のステップ:リポジトリをクローンし、Homebrew でインストール、音声コマンドを試してみてください。カスタムアクションや音声プロンプトをコミュニティフォーラムで共有し、プロジェクトを盛り上げましょう。