C/ua: Tu sistema operativo de agente IA en un contenedor
C/ua: Dando a los agentes de IA control total sobre el sistema operativo
[Imagen: Logotipo de Cua (https://github.com/trycua/cua/raw/main/img/logo_black.png)]
C/ua (pronunciado "kuu-a") es un proyecto de código abierto revolucionario diseñado para dar a los agentes de IA control total del sistema operativo dentro de contenedores virtuales. Promocionado como "Docker para agentes de IA de uso informático", c/ua permite a desarrolladores y entusiastas de la IA ejecutar agentes de IA sofisticados de forma local o desplegarlos en la nube, lo que les permite interactuar y automatizar tareas en sistemas operativos completos.
¿Qué es C/ua?
En esencia, c/ua es un marco robusto que facilita la integración de agentes de IA con entornos virtualizados. Utiliza Lume CLI
para la gestión de máquinas virtuales macOS/Linux de alto rendimiento y Lumier
para una interfaz similar a Docker para estas máquinas virtuales. Esta potente combinación significa que los agentes de IA pueden realizar tareas del mundo real como navegar por un escritorio, interactuar con aplicaciones y ejecutar comandos como lo haría un usuario humano. Con 8.500 estrellas en GitHub y una comunidad activa, c/ua está ganando rápidamente terreno como una herramienta vital en la evolución de la IA.
Capacidades y características clave:
- Contenerización virtual: Proporciona entornos virtuales seguros y aislados para que los agentes de IA operen.
- Control del sistema operativo: Permite a los agentes de IA controlar sistemas macOS y Linux, con potencial para Windows (vía WSL).
- Tareas de escritorio automatizadas: Automatiza flujos de trabajo complejos, desde la entrada de datos hasta las interacciones con software.
- Múltiples bucles de agente: Soporta varios paradigmas de agente, incluyendo:
- UI-TARS-1.5: Ejecución local en Apple Silicon con MLX.
- OpenAI CUA: Utiliza el modelo preliminar de uso informático de OpenAI.
- Anthropic CUA: Se integra con las capacidades de uso informático de Anthropic.
- OmniParser-v2.0: Permite el control de la interfaz de usuario con indicaciones de "Set-of-Marks" utilizando cualquier modelo de visión.
- Fácil de usar para desarrolladores: Ofrece un SDK de Python para una fácil integración en aplicaciones personalizadas.
- Módulos completos: Incluye
Lume
(gestión de VM),Lumier
(interfaz Docker para VM),Computer
(interfaz de control de VM),Agent
(marco de agente de IA) yMCP Server
(integración con Claude Desktop).
Demostraciones en acción
[Imagen: vibe-photoshop.mp4] * Integración con Photoshop: Vea un agente de IA manipulando Photoshop, demostrando un control preciso sobre las aplicaciones gráficas.
[Imagen: mcp-claude-tableau.mp4] * Servidor MCP con Claude Desktop y Tableau: Observe a un agente interactuar sin problemas con herramientas de inteligencia empresarial.
[Imagen: ai-gradio-clone.mp4] * Flujo de trabajo multi-aplicación (Navegador, VS Code, Terminal): Sea testigo de cómo un agente de IA navega entre diferentes aplicaciones para completar una tarea.
[Imagen: notebook-github-cursor.mp4] * Resolver problema de GitHub en Cursor: Un agente identifica y resuelve de forma inteligente un problema de GitHub dentro de un editor de código.
Empieza a usar C/ua
C/ua ofrece opciones de instalación flexibles para adaptarse a las preferencias de diferentes usuarios:
Opción 1: Instalación totalmente gestionada (Recomendada)
Para una configuración guiada y sencilla en macOS/Linux/Windows (vía WSL), simplemente ejecuta el siguiente comando (requiere Python 3.11+):
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/scripts/playground.sh)"
Este script se encarga de las dependencias, las descargas de imágenes de VM, la instalación de paquetes de Python y el lanzamiento de la interfaz de usuario del agente de uso informático.
Opción 2: Pasos manuales clave
Para aquellos que prefieren un enfoque más práctico:
Para la interfaz de usuario del agente C/ua (cualquier sistema, solo VMs en la nube):
pip install -U "cua-computer[all]" "cua-agent[all]"
python -m agent.ui.gradio.app
Para VMs locales de macOS/Linux (solo Apple Silicon):
# 1. Instalar Lume CLI
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/lume/scripts/install.sh)"
# 2. Obtener imagen de macOS
lume pull macos-sequoia-cua:latest
# 3. Iniciar VM
lume run macos-sequoia-cua:latest
# 4. Instalar paquetes y lanzar la interfaz de usuario
pip install -U "cua-computer[all]" "cua-agent[all]"
python -m agent.ui.gradio.app
Guía para desarrolladores
Integrar c/ua en tus propios proyectos es sencillo con su SDK de Python:
from computer import Computer
from agent import ComputerAgent, LLM
import asyncio
async def main():
# Iniciar una VM de macOS local
computer = Computer(os_type="macos")
await computer.run()
# O con C/ua Cloud Container
# computer = Computer(
# os_type="linux",
# api_key="tu_clave_api_cua_aqui",
# name="el_nombre_de_tu_contenedor_aqui"
# )
# Ejemplo: Control directo de una VM macOS con Computer
await computer.interface.left_click(100, 200)
await computer.interface.type_text("¡Hola, mundo!")
screenshot_bytes = await computer.interface.screenshot()
# Ejemplo: Crear y ejecutar un agente localmente usando mlx-community/UI-TARS-1.5-7B-6bit
agent = ComputerAgent(
computer=computer,
loop="uitars",
model=LLM(provider="mlxvlm", name="mlx-community/UI-TARS-1.5-7B-6bit")
)
async for result in agent.run("Encuentra el repositorio trycua/cua en GitHub y sigue la guía de inicio rápido"):
print(result)
if __name__ == "__main__":
asyncio.run(main())
[Imagen: Python (https://camo.githubusercontent.com/8334e487cb9a2bbcbd7f6f7472feaef41f1723e22d6d8f6eaf48724e66b166a4/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f5079746f6e2d3333333333333f6c6f676f3d7079746f6e266c6f676f436f6c6f723d7768697465266c6162656c436f6c6f723d333333333333)] [Imagen: Swift (https://camo.githubusercontent.com/580136c672053e244600b654b01a8d84475cd7a8b73ff082cfa43e6e2c14c214/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f53776966742d4630353133383f6c6f676f3d7377696674266c6f676f436f6c6f723d7768697465)] [Imagen: macOS (https://camo.githubusercontent.com/13ef9cc53c7a14220aebc0ecca23f76d9953a9d0a98166a748dcf6769b4735a0/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f6d61634f532d3030303030303f6c6f676f3d6170706c65266c6f676f436f6c6f723d463046304630)] [Imagen: Discord (https://camo.githubusercontent.com/15d038c49987b089c614a1f93c8742f024b0d05c0cb9627e52cb6f6043279553/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f446973636f72642d2532333538363546322e7376673f266c6f676f3d646973636f7264266c6f676f436f6c6f723d7768697465)]
Comunidad y Contribuciones
C/ua es un proyecto de código abierto con licencia MIT que acepta contribuciones. Puedes unirte a su comunidad de Discord para discutir ideas, obtener ayuda o compartir tus demostraciones. El proyecto también proporciona directrices claras de contribución para aquellos que deseen involucrarse.
[Imagen: Estrellas a lo largo del tiempo (https://starchar.cc/trycua/cua.svg?variant=adaptive)] [Imagen: trycua%2Fcua | Trendshift (https://camo.githubusercontent.com/fd1c9feaa725787992bb28484c1087f4c9ffd51ce204318f952a8493b0b151c0/68747470733a2f2f7472656e6473686966742e696f2f6170692f62616467652f7265706f7369746f726965732f3133363835)]
Al proporcionar una plataforma robusta para que los agentes de IA controlen los sistemas operativos, c/ua está ampliando los límites de lo que la IA puede lograr, haciendo que la automatización y la interacción complejas sean más simples y accesibles que nunca.