C/ua:コンテナ型AIエージェントOS

C/ua: AIエージェントにOSの完全な制御権限を

[画像:Cuaロゴ]

C/ua(「クーア」と読みます)は、AIエージェントに仮想コンテナ内でOSを完全に制御させる、画期的なオープンソースプロジェクトです。「コンピュータ操作AIエージェント向けDocker」として売り出されており、開発者やAI愛好家は、洗練されたAIエージェントをローカルで実行したり、クラウドにデプロイしたりして、OS全体でタスクを操作・自動化できるようになります。

C/uaとは?

C/uaは、AIエージェントと仮想環境の統合を可能にする堅牢なフレームワークを核としています。macOS/Linux VMを高パフォーマンスで管理するためにLume CLIを、これらのVMをDockerのように扱うためにLumierを活用しています。この強力な組み合わせにより、AIエージェントは人間がするのと同様に、デスクトップを操作したり、アプリケーションを扱ったり、コマンドを実行したりといった実社会でのタスクを実行できます。GitHubで8.5K以上のスターを獲得し、活発なコミュニティを持つC/uaは、AIの進化における重要なツールとして急速に注目を集めています。

主な機能:

  • 仮想コンテナ化: AIエージェントが安全で隔離された仮想環境内で動作できるよう提供します。
  • OS制御: AIエージェントがmacOSとLinuxシステムを制御でき、将来的にはWindows(WSL経由)も視野に入れています。
  • デスクトップタスクの自動化: データ入力からソフトウェア操作まで、複雑なワークフローを自動化します。
  • 複数のエージェントループ: 以下のような様々なエージェントパラダイムをサポートします。
    • UI-TARS-1.5: Apple Silicon上でMLXを使用しローカルで実行。
    • OpenAI CUA: OpenAIのComputer-Use Previewモデルを利用。
    • Anthropic CUA: AnthropicのComputer-Use機能と統合。
    • OmniParser-v2.0: 任意のビジョンモデルを使用し、セットオブマークプロンプティングでUI制御を可能に。
  • 開発者に優しい: カスタムアプリケーションへの組み込みを容易にするPython SDKを提供します。
  • 包括的なモジュール: Lume(VM管理)、Lumier(VM向けDockerインターフェース)、Computer(VM制御インターフェース)、Agent(AIエージェントフレームワーク)、MCP Server(Claude Desktopとの統合)が含まれます。

デモ動画

[画像:vibe-photoshop.mp4] * Photoshop統合: AIエージェントがPhotoshopを操作し、グラフィカルアプリケーションのきめ細かな制御が可能であることを示します。

[画像:mcp-claude-tableau.mp4] * Claude DesktopとTableauによるMCP Server: エージェントがビジネスインテリジェンスツールとシームレスに連携する様子をご覧ください。

[画像:ai-gradio-clone.mp4] * マルチアプリケーションワークフロー (ブラウザ、VS Code、ターミナル): AIエージェントが異なるアプリケーション間を行き来してタスクを完了する様子を目撃してください。

[画像:notebook-github-cursor.mp4] * CursorでGitHubのissueを修正: エージェントがコードエディタ内でGitHubのissueをインテリジェントに特定し、解決します。

C/uaを始めるには

C/uaは、ユーザーの様々な好みに合わせて柔軟なインストールオプションを提供しています。

オプション1: 完全管理インストール(推奨)

macOS/Linux/Windows(WSL経由)で、ガイド付きの簡単なセットアップを行うには、次のコマンドを実行するだけです(Python 3.11以降が必要です)。

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/scripts/playground.sh)"

このスクリプトは、依存関係の処理、VMイメージのダウンロード、Pythonパッケージのインストールを行い、Computer-Use Agent UIを起動します。

オプション2: 主な手動ステップ

より実践的なアプローチを好む方へ:

C/ua Agent UI用(あらゆるシステム、クラウドVMのみ):

pip install -U "cua-computer[all]" "cua-agent[all]"
python -m agent.ui.gradio.app

ローカルmacOS/Linux VM用(Apple Siliconのみ):

# 1. Lume CLIをインストール
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/lume/scripts/install.sh)"

# 2. macOSイメージをプル
lume pull macos-sequoia-cua:latest

# 3. VMを起動
lume run macos-sequoia-cua:latest

# 4. パッケージをインストールしてUIを起動
pip install -U "cua-computer[all]" "cua-agent[all]"
python -m agent.ui.gradio.app

開発者ガイド

C/uaを独自のプロジェクトに統合するのは、Python SDKを使えば簡単です。

from computer import Computer
from agent import ComputerAgent, LLM
import asyncio

async def main():
    # ローカルのmacOS VMを起動
    computer = Computer(os_type="macos")
    await computer.run()

    # またはC/uaクラウドコンテナの場合
    # computer = Computer(
    #    os_type="linux",
    //    api_key="your_cua_api_key_here",
    //    name="your_container_name_here"
    // )

    # 例:ComputerでmacOS VMを直接制御
    await computer.interface.left_click(100, 200)
    await computer.interface.type_text("Hello, world!")
    screenshot_bytes = await computer.interface.screenshot()

    # 例:mlx-community/UI-TARS-1.5-7B-6bitを使用してエージェントをローカルで作成・実行
    agent = ComputerAgent(
        computer=computer,
        loop="uitars",
        model=LLM(provider="mlxvlm", name="mlx-community/UI-TARS-1.5-7B-6bit")
    )
    async for result in agent.run("GitHubでtrycua/cuaリポジトリを見つけてクイックスタートガイドに従ってください"):
        print(result)

if __name__ == "__main__":
    asyncio.run(main())

[画像:Python] [画像:Swift] [画像:macOS] [画像:Discord]

コミュニティとコントリビューション

C/uaはMITライセンスのオープンソースプロジェクトで、コントリビューションを歓迎しています。Discordコミュニティに参加して、アイデアを議論したり、サポートを受けたり、デモを共有したりできます。プロジェクトでは、参加を希望する方向けに明確なコントリビューションガイドラインも提供しています。

[画像:Stargazers over time] [画像:trycua%2Fcua | Trendshift]

AIエージェントがOSを制御するための堅牢なプラットフォームを提供することで、C/uaはAIができることの境界を押し広げ、複雑な自動化や操作をかつてないほどシンプルでアクセスしやすいものにしています。

この記事を共有