RCLI:macOS用オンデバイス音声AI – Zero-Cloud、高速

RCLIとは?

RCLI(RunAnywhere Command‑Line Interface)は、macOS向けの完全ローカル型オープンソース音声アシスタントです。Speech‑to‑Text(STT)エンジン、Large‑Language Model(LLM)、Text‑to‑Speech(TTS)を統合し、Apple Silicon の GPU 上で独自の MetalRT 推論エンジンを使用してすべて実行します。結果として、データをクラウドに送信せずに、音声操作でアプリケーションを制御し、ローカルドキュメントから情報を取得し、リアルタイムで回答する音声アクティベートマックが実現します。

主要ポイント

  • 38種類のmacOSアクション(Spotify再生、音量調整、スクリーンショット取得、URLオープンなど)を音声またはテキストで実行可能。
  • PDF、DOCX、プレーンテキストをハイブリッドベクター+BM25検索でインデックス化し、約4 msでRAG(Retrieval‑Augmented Generation)を実行。
  • 発話から返信を聞くまでのエンドツーエンドレイテンシは200 ms未満。
  • 外部APIに頼らず、APIキー不要。
  • ターミナルベースのインタラクティブUIでモデル、アクション、MetalRTエンジンを管理可能。

インストール

RCLI は Homebrew あるいは単一スクリプトでインストールできます。最速設定は以下を実行。

curl -fsSL https://raw.githubusercontent.com/RunanywhereAI/RCLI/main/install.sh | bash

または Homebrew で。

brew tap RunanywhereAI/rcli https://github.com/RunanywhereAI/RCLI.git
brew install rcli
rcli setup   # 初回起動時に約1 GBのローカルモデルをダウンロード

macOS 13+ で Apple Silicon(M3以降推奨)を搭載した Mac では MetalRT GPU エンジンが自動で使用されます。M1/M2 の Mac では、fast open‑source llama.cpp 実装にフォールバックします。

クイック‑スタートコマンド

コマンド 役割
rcli インタラクティブ TUI を起動(Push‑to‑talk またはテキスト入力)
rcli listen 持続的音声モード(話すだけで実行)
rcli ask "open Safari" テキストまたは音声でワンショットコマンド
rcli metalrt MetalRT GPU エンジン管理
rcli llamacpp Llama.cpp エンジン管理

TUI では A でアクションの有効化/無効化、M でモデル一覧表示、R で RAG 用ドキュメントインポート、X で会話コンテキストクリアができます。

機能詳細

1. フル機能音声パイプライン

  • VAD – Silero Voice Activity Detection。
  • STT – Whisper Tiny/Small/Medium、または Zipformer ストリーミング版。
  • LLM – Qwen3、LFM2 系列、または Qwen3.5。すべて MetalRT に Flash Attention 付きでロード。
  • TTS – Kokoro 音声または代替TTS エンジン。
  • Tool‑Calling – Qwen3、LFM2 のネイティブツール呼び出しを使い macOS アクションを実現。

2. 38 つの macOS アクション

RCLI は LLM のインテントを AppleScript やシェルコマンドへマッピングします。主なカテゴリは次の通り。 - 生産性 – ノート作成、リマインダー設定、ショートカット実行。 - コミュニケーション – メッセージ送信、FaceTime 通話開始。 - メディア – Spotify、Apple Music 操作、音量調整。 - システム – アプリ起動/終了、画面ロック、ダークモード切替。 - ウェブ – 検索、URL オープン、地図開く。

3. ローカル RAG

rcli rag ingest ~/Documents でフォルダをインデックス化。クエリはハイブリッド検索エンジンで処理され、デバイス上のみで完結。数千チャンクを扱っても約4 ms の応答速度でリアルタイムドキュメント Q&A が可能。

4. ベンチマーク

  • MetalRT デコードスループット:最大 550 tokens/s、lama.cpp や Apple MLX を M3 Max で上回る。
  • リアルタイム性:MetalRT STT は実時間の714×速い、全体パイプラインは200 ms 未満。

参加方法

RCLI は Pull Request を歓迎しています。貢献方法は以下の通り。 - 新しい macOS アクションを追加、あるいは既存の改善。 - モデル(LLM、STT、TTS)追加。 - TUI の改善や新しいドキュメント追加。

CONTRIBUTING.md にビルド手順があります。

無料か?

リポジトリは MIT ライセンス。MetalRT GPU エンジン自体は専有ですが、個人または商用プロジェクトで無料利用できます(ベンダーへ連絡)。

まとめ

RCLI はクラウドサービスや API キーを必要とせず、macOS 上でローカルに実行できる音声ソリューションを提供します。増えていくローカル実行アクション、リアルタイム RAG、そして Lightning‑fast MetalRT 推論で、プライバシー重視の音声アシスタントを開発したいエンジニアや、Mac を即座に制御したいパワーユーザーにとって理想的です。

次のステップ:リポジトリをクローンし、Homebrew でインストール、音声コマンドを試してみてください。カスタムアクションや音声プロンプトをコミュニティフォーラムで共有し、プロジェクトを盛り上げましょう。

この記事を共有