C/ua: 容器化AI智能体操作系统

June 10, 2025

C/ua:赋予AI智能体全面操作系统控制力的利器

[图片:Cua标志 (https://github.com/trycua/cua/raw/main/img/logo_black.png)]

C/ua(发音为“koo-ah”)是一个开创性的开源项目,旨在让AI智能体能在虚拟容器内,拥有对操作系统的完全控制权。它被誉为“面向电脑操作型AI智能体的Docker”,C/ua让开发者和AI爱好者能轻松地在本地运行复杂的AI智能体,或将其部署到云端,使它们能与整个操作系统进行交互并自动化各项任务。

什么是 C/ua?

C/ua的核心是一个强大的框架,它能将AI智能体与虚拟环境无缝集成。它利用Lume CLI实现高性能的macOS/Linux虚拟机管理,并借助Lumier提供类似Docker的虚拟机操作界面。这种强大的组合意味着AI智能体可以像人类用户一样,执行真实世界中的任务,比如桌面导航、应用交互和命令执行。C/ua在GitHub上已获得8.5K星标,并拥有一个活跃的社区,正迅速成为AI发展演变中的一个重要工具。

主要功能与特性:

  • 虚拟容器化:为AI智能体提供安全、隔离的虚拟操作环境。
  • 操作系统控制:允许AI智能体控制macOS和Linux系统,并有望通过WSL支持Windows。
  • 桌面任务自动化:自动化复杂的任务流程,从数据录入到软件交互无所不能。
  • 多智能体循环支持:支持多种智能体范式,包括:
    • UI-TARS-1.5:在Apple Silicon上使用MLX进行本地执行。
    • OpenAI CUA:利用OpenAI的计算机使用预览模型。
    • Anthropic CUA:与Anthropic的计算机使用能力集成。
    • OmniParser-v2.0:支持使用任何视觉模型,通过Set-of-Marks提示词进行UI控制。
  • 开发者友好:提供Python SDK,方便集成到自定义应用中。
  • 全面模块:包括Lume(虚拟机管理)、Lumier(虚拟机Docker接口)、Computer(虚拟机控制接口)、Agent(AI智能体框架)和MCP Server(与Claude Desktop集成)。

动手演示

[图片:vibe-photoshop.mp4] * Photoshop集成:观看AI智能体操控Photoshop,展示了对图形应用的精准控制。

[图片:mcp-claude-tableau.mp4] * MCP服务器与Claude Desktop及Tableau联动:观看智能体与商业智能工具无缝交互。

[图片:ai-gradio-clone.mp4] * 多应用工作流(浏览器、VS Code、终端):见证AI智能体在不同应用间切换以完成任务。

[图片:notebook-github-cursor.mp4] * 在Cursor中修复GitHub问题:智能体在代码编辑器中识别并解决GitHub问题。

C/ua快速入门

C/ua提供灵活的安装选项,以满足不同用户的需求:

选项一:完全托管安装(推荐)

对于macOS/Linux/Windows(通过WSL)上的引导式和无忧安装,只需运行以下命令(需要Python 3.11+):

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/scripts/playground.sh)"

此脚本将处理依赖项、虚拟机镜像下载、Python包安装,并启动计算机使用智能体UI。

选项二:关键手动步骤

对于喜欢亲自动手的用户:

适用于C/ua智能体UI(任何系统,仅限云虚拟机):

pip install -U "cua-computer[all]" "cua-agent[all]"
python -m agent.ui.gradio.app

适用于本地macOS/Linux虚拟机(仅限Apple Silicon):

# 1. 安装 Lume CLI
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/lume/scripts/install.sh)"

# 2. 拉取 macOS 镜像
lume pull macos-sequoia-cua:latest

# 3. 启动虚拟机
lume run macos-sequoia-cua:latest

# 4. 安装包并启动 UI
pip install -U "cua-computer[all]" "cua-agent[all]"
python -m agent.ui.gradio.app

开发者指南

C/ua通过其Python SDK,能轻松集成到您自己的项目中:

from computer import Computer
from agent import ComputerAgent, LLM
import asyncio

async def main():
    # 启动一个本地macOS虚拟机
    computer = Computer(os_type="macos")
    await computer.run()

    # 或者使用C/ua云容器
    # computer = Computer(
    #    os_type="linux",
    #    api_key="your_cua_api_key_here",
    #    name="your_container_name_here"
    # )

    # 例子:使用Computer直接控制macOS虚拟机
    await computer.interface.left_click(100, 200)
    await computer.interface.type_text("Hello, world!")
    screenshot_bytes = await computer.interface.screenshot()

    # 例子:使用mlx-community/UI-TARS-1.5-7B-6bit创建并本地运行智能体
    agent = ComputerAgent(
        computer=computer,
        loop="uitars",
        model=LLM(provider="mlxvlm", name="mlx-community/UI-TARS-1.5-7B-6bit")
    )
    async for result in agent.run("在GitHub上找到trycua/cua仓库并遵循快速入门指南"):
        print(result)

if __name__ == "__main__":
    asyncio.run(main())

[图片:Python (https://camo.githubusercontent.com/8334e487cb9a2bbcbd7f6f7472feaef41f1723e22d6d8f6eaf48724e66b166a4/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f507974686f6e2d333333333333f6c6f676f3d707974686f6e266c6f676f436f6c6f723d7768697465266c6162656c436f6c6f723d333333333333)] [图片:Swift (https://camo.githubusercontent.com/580136c672053e244600b654b01a8d84475cd7a8b73ff082cfa43e6e2c14c214/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f53776966742d4630353133383f6c6f676f3d7377696674266c6f676f436f6c6f723d7768697465)] [图片:macOS (https://camo.githubusercontent.com/13ef9cc53c7a14220aebc0ecca23f76d9953a9d0a98166a748dcf6769b4735a0/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f6d61634f532d3030303030303f6c6f676f3d6170706c65266c6f676f436f6c6f723d463046304630)] [图片:Discord (https://camo.githubusercontent.com/15d038c49987b089c614a1f93c8742f024b0d05c0cb9627e52cb6f6043279553/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f446973636f72642d2532333538363546322e7376673f266c6f676f3d646973636f7264266c6f676f436f6c6f723d7768697465)]

社区与贡献

C/ua是一个采用MIT许可证的开源项目,欢迎大家贡献。您可以加入他们的Discord社区讨论想法、获取帮助或分享您的演示。项目还为希望参与其中的人提供了清晰的贡献指南。

[图片:Stargazers over time (https://starchar.cc/trycua/cua.svg?variant=adaptive)] [图片:trycua%2Fcua | Trendshift (https://camo.githubusercontent.com/fd1c9feaa725787992bb28484c1087f4c9ffd51ce204318f952a8493b0b151c0/68747470733a2f2f7472656e6473686966742e696f2f6170692f62616467652f7265706f7369746f726965732f3133363835)]

通过为AI智能体提供一个强大的平台来控制操作系统,C/ua正在拓展AI能力的边界,使得复杂的自动化和交互比以往任何时候都更简单、更易于实现。

原创文章: 查看原文

分享本文