NeuTTS Air:瞬時の音声クローン作成が可能なオンデバイスAI

NeuTTS Air:オンデバイス音声AIに変革をもたらす

これまで最先端の音声AIはWeb APIに限定され、そのアクセシビリティと可能性が制限されてきました。ニューフォニックのNeuTTS Airは、この障壁を打ち破り、世界初の超リアルなオンデバイスText-to-Speech(TTS)音声言語モデルと、瞬時の音声クローン機能を導入します。

堅牢な0.5B LLMバックボーンを基盤とするNeuTTS Airは、自然な発話、リアルタイムパフォーマンス、統合されたセキュリティ機能を直接ローカルデバイスに提供します。この革新は、組み込み音声エージェント、インテリジェントアシスタント、インタラクティブ玩具、およびコンプライアンスに準拠したオフライン音声合成を必要とするアプリケーションにとって、新しい時代の扉を開きます。

NeuTTS Airの主な機能

  • 比類のないリアリズム: 非常に自然で超リアルな音声を生成し、オンデバイスTTSの新しい標準を確立します。そのサイズとローカル処理能力を考えると、驚くほど人間のようなオーディオ品質を実現しています。
  • オンデバイスデプロイメントに最適化: 非常に効率的なGGML形式で提供されるNeuTTS Airは、スマートフォン、ノートパソコン、さらにはRaspberry Piのようなリソースが限られたプラットフォームを含む幅広いデバイスでシームレスに動作するように設計されています。
  • 瞬時の音声クローン: わずか3秒の音声があれば、パーソナライズされた話者を作成でき、動的でカスタマイズされた音声インタラクションを可能にします。
  • 効率的なアーキテクチャ: 0.5Bバックボーン上に構築されたシンプルなLM +コーデックアーキテクチャを活用することで、速度、サイズ、オーディオ品質の完璧なバランスを実現し、実際のアプリケーションに最適です。
  • 高度なオーディオコーデック: 独自の50HzニューラルオーディオコーデックであるNeuCodecを搭載し、単一のコードブックを使用して低ビットレートで卓越したオーディオ忠実度を保証します。
  • 透かし入り出力: 責任あるAI利用のため、NeuTTS Airによって生成されるすべてのオーディオファイルには、Perth(知覚閾値)ウォーターマーカーが含まれています。

技術仕様

  • 対応言語: 現在は英語に重点を置いています。
  • コンテキストウィンドウ: 2048トークンのコンテキストウィンドウにより、プロンプトの長さを含め、約30秒のオーディオを処理できます。
  • 推論速度: ミッドレンジデバイスでリアルタイム生成を提供します。
  • 消費電力: モバイルおよび組み込みデバイス向けに最適化されており、エネルギー効率を確保しています。

NeuTTS Airの始め方

NeuTTS Airをプロジェクトに統合するのは簡単です。プロジェクトでは、リポジトリのクローン作成、espeakなどの必要な依存関係のインストール、Python環境の設定に関する明確なガイドを提供しています。

ユーザーは、カスタムテキストと参照オーディオを使用して音声を合成するための基本的な例を実行できます。さらに、NeuTTS Airはチャンクでオーディオを生成するストリーミングモードをサポートしており、動的なユーザーエクスペリエンスを提供します。

クイックスタートガイド:

  1. リポジトリのクローンを作成する:
    git clone https://github.com/neuphonic/neutts-air.git
    cd neutts-air
    
  2. espeakをインストールする: プラットフォーム固有の指示に従ってください(例:macOSではbrew install espeak、Ubuntu/Debianではsudo apt install espeak)。
  3. Pythonの依存関係をインストールする:
    pip install -r requirements.txt
    
  4. (オプション) GGUFのサポート: GGUFモデル用にllama-cpp-pythonをインストールします。
  5. (オプション) ONNXデコーダー: ONNXデコーダーを使用する場合はonnxruntimeをインストールします。

モデルの実行、ストリーミング機能の利用、およびクローン作成のための最適な参照オーディオの準備に関する詳細な手順は、プロジェクトのREADMEに記載されています。

責任あるAIと将来の発展

ニューフォニックはNeuTTS Airの責任ある利用を強調し、より高速で小型、かつ倫理的なオンデバイス音声AIソリューションの構築に努めています。彼らは開発者に対し、この強力なテクノロジーを導入する際に貢献し、倫理的ガイドラインを遵守することを奨励しています。

NeuTTS Airは、高度な音声AIをエッジでアクセス可能にし、デプロイ可能にする上で大きな飛躍を意味し、数多くの産業において革新的なアプリケーションへの道を開きます。

この記事を共有