C/ua: 容器化AI智能体操作系统
C/ua:赋予AI智能体全面操作系统控制力的利器
[图片:Cua标志 (https://github.com/trycua/cua/raw/main/img/logo_black.png)]
C/ua(发音为“koo-ah”)是一个开创性的开源项目,旨在让AI智能体能在虚拟容器内,拥有对操作系统的完全控制权。它被誉为“面向电脑操作型AI智能体的Docker”,C/ua让开发者和AI爱好者能轻松地在本地运行复杂的AI智能体,或将其部署到云端,使它们能与整个操作系统进行交互并自动化各项任务。
什么是 C/ua?
C/ua的核心是一个强大的框架,它能将AI智能体与虚拟环境无缝集成。它利用Lume CLI
实现高性能的macOS/Linux虚拟机管理,并借助Lumier
提供类似Docker的虚拟机操作界面。这种强大的组合意味着AI智能体可以像人类用户一样,执行真实世界中的任务,比如桌面导航、应用交互和命令执行。C/ua在GitHub上已获得8.5K星标,并拥有一个活跃的社区,正迅速成为AI发展演变中的一个重要工具。
主要功能与特性:
- 虚拟容器化:为AI智能体提供安全、隔离的虚拟操作环境。
- 操作系统控制:允许AI智能体控制macOS和Linux系统,并有望通过WSL支持Windows。
- 桌面任务自动化:自动化复杂的任务流程,从数据录入到软件交互无所不能。
- 多智能体循环支持:支持多种智能体范式,包括:
- UI-TARS-1.5:在Apple Silicon上使用MLX进行本地执行。
- OpenAI CUA:利用OpenAI的计算机使用预览模型。
- Anthropic CUA:与Anthropic的计算机使用能力集成。
- OmniParser-v2.0:支持使用任何视觉模型,通过Set-of-Marks提示词进行UI控制。
- 开发者友好:提供Python SDK,方便集成到自定义应用中。
- 全面模块:包括
Lume
(虚拟机管理)、Lumier
(虚拟机Docker接口)、Computer
(虚拟机控制接口)、Agent
(AI智能体框架)和MCP Server
(与Claude Desktop集成)。
动手演示
[图片:vibe-photoshop.mp4] * Photoshop集成:观看AI智能体操控Photoshop,展示了对图形应用的精准控制。
[图片:mcp-claude-tableau.mp4] * MCP服务器与Claude Desktop及Tableau联动:观看智能体与商业智能工具无缝交互。
[图片:ai-gradio-clone.mp4] * 多应用工作流(浏览器、VS Code、终端):见证AI智能体在不同应用间切换以完成任务。
[图片:notebook-github-cursor.mp4] * 在Cursor中修复GitHub问题:智能体在代码编辑器中识别并解决GitHub问题。
C/ua快速入门
C/ua提供灵活的安装选项,以满足不同用户的需求:
选项一:完全托管安装(推荐)
对于macOS/Linux/Windows(通过WSL)上的引导式和无忧安装,只需运行以下命令(需要Python 3.11+):
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/scripts/playground.sh)"
此脚本将处理依赖项、虚拟机镜像下载、Python包安装,并启动计算机使用智能体UI。
选项二:关键手动步骤
对于喜欢亲自动手的用户:
适用于C/ua智能体UI(任何系统,仅限云虚拟机):
pip install -U "cua-computer[all]" "cua-agent[all]"
python -m agent.ui.gradio.app
适用于本地macOS/Linux虚拟机(仅限Apple Silicon):
# 1. 安装 Lume CLI
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/lume/scripts/install.sh)"
# 2. 拉取 macOS 镜像
lume pull macos-sequoia-cua:latest
# 3. 启动虚拟机
lume run macos-sequoia-cua:latest
# 4. 安装包并启动 UI
pip install -U "cua-computer[all]" "cua-agent[all]"
python -m agent.ui.gradio.app
开发者指南
C/ua通过其Python SDK,能轻松集成到您自己的项目中:
from computer import Computer
from agent import ComputerAgent, LLM
import asyncio
async def main():
# 启动一个本地macOS虚拟机
computer = Computer(os_type="macos")
await computer.run()
# 或者使用C/ua云容器
# computer = Computer(
# os_type="linux",
# api_key="your_cua_api_key_here",
# name="your_container_name_here"
# )
# 例子:使用Computer直接控制macOS虚拟机
await computer.interface.left_click(100, 200)
await computer.interface.type_text("Hello, world!")
screenshot_bytes = await computer.interface.screenshot()
# 例子:使用mlx-community/UI-TARS-1.5-7B-6bit创建并本地运行智能体
agent = ComputerAgent(
computer=computer,
loop="uitars",
model=LLM(provider="mlxvlm", name="mlx-community/UI-TARS-1.5-7B-6bit")
)
async for result in agent.run("在GitHub上找到trycua/cua仓库并遵循快速入门指南"):
print(result)
if __name__ == "__main__":
asyncio.run(main())
[图片:Python (https://camo.githubusercontent.com/8334e487cb9a2bbcbd7f6f7472feaef41f1723e22d6d8f6eaf48724e66b166a4/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f507974686f6e2d333333333333f6c6f676f3d707974686f6e266c6f676f436f6c6f723d7768697465266c6162656c436f6c6f723d333333333333)] [图片:Swift (https://camo.githubusercontent.com/580136c672053e244600b654b01a8d84475cd7a8b73ff082cfa43e6e2c14c214/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f53776966742d4630353133383f6c6f676f3d7377696674266c6f676f436f6c6f723d7768697465)] [图片:macOS (https://camo.githubusercontent.com/13ef9cc53c7a14220aebc0ecca23f76d9953a9d0a98166a748dcf6769b4735a0/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f6d61634f532d3030303030303f6c6f676f3d6170706c65266c6f676f436f6c6f723d463046304630)] [图片:Discord (https://camo.githubusercontent.com/15d038c49987b089c614a1f93c8742f024b0d05c0cb9627e52cb6f6043279553/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f446973636f72642d2532333538363546322e7376673f266c6f676f3d646973636f7264266c6f676f436f6c6f723d7768697465)]
社区与贡献
C/ua是一个采用MIT许可证的开源项目,欢迎大家贡献。您可以加入他们的Discord社区讨论想法、获取帮助或分享您的演示。项目还为希望参与其中的人提供了清晰的贡献指南。
[图片:Stargazers over time (https://starchar.cc/trycua/cua.svg?variant=adaptive)] [图片:trycua%2Fcua | Trendshift (https://camo.githubusercontent.com/fd1c9feaa725787992bb28484c1087f4c9ffd51ce204318f952a8493b0b151c0/68747470733a2f2f7472656e6473686966742e696f2f6170692f62616467652f7265706f7369746f726965732f3133363835)]
通过为AI智能体提供一个强大的平台来控制操作系统,C/ua正在拓展AI能力的边界,使得复杂的自动化和交互比以往任何时候都更简单、更易于实现。