C/ua: Tu sistema operativo de agente IA en un contenedor
C/ua (Computer-Use agents) es un innovador proyecto de código abierto que funciona como el "Docker para agentes de IA". Permite que los agentes de inteligencia artificial controlen sistemas operativos completos dentro de contenedores virtuales, desplegables tanto localmente como en la nube. Esta potente herramienta aporta un nuevo nivel de autonomía a la IA, permitiendo que los agentes automaticen tareas complejas de escritorio, interactúen con aplicaciones como Claude Desktop y Tableau, y resuelvan problemas de GitHub directamente desde una notebook. Con opciones de instalación sencillas para macOS, Linux y Windows (a través de WSL), y soporte para varios bucles de agentes de IA incluyendo UI-TARS-1.5, OpenAI CUA y Anthropic CUA, c/ua empodera a desarrolladores y entusiastas de la IA para construir y desplegar sofisticados agentes de uso informático. Explora sus capacidades y transforma la forma en que tu IA interactúa con el mundo digital.
C/ua: Dando a los agentes de IA control total sobre el sistema operativo
[Imagen: Logotipo de Cua (https://github.com/trycua/cua/raw/main/img/logo_black.png)]
C/ua (pronunciado "kuu-a") es un proyecto de código abierto revolucionario diseñado para dar a los agentes de IA control total del sistema operativo dentro de contenedores virtuales. Promocionado como "Docker para agentes de IA de uso informático", c/ua permite a desarrolladores y entusiastas de la IA ejecutar agentes de IA sofisticados de forma local o desplegarlos en la nube, lo que les permite interactuar y automatizar tareas en sistemas operativos completos.
¿Qué es C/ua?
En esencia, c/ua es un marco robusto que facilita la integración de agentes de IA con entornos virtualizados. Utiliza Lume CLI para la gestión de máquinas virtuales macOS/Linux de alto rendimiento y Lumier para una interfaz similar a Docker para estas máquinas virtuales. Esta potente combinación significa que los agentes de IA pueden realizar tareas del mundo real como navegar por un escritorio, interactuar con aplicaciones y ejecutar comandos como lo haría un usuario humano. Con 8.500 estrellas en GitHub y una comunidad activa, c/ua está ganando rápidamente terreno como una herramienta vital en la evolución de la IA.
Capacidades y características clave:
- Contenerización virtual: Proporciona entornos virtuales seguros y aislados para que los agentes de IA operen.
- Control del sistema operativo: Permite a los agentes de IA controlar sistemas macOS y Linux, con potencial para Windows (vía WSL).
- Tareas de escritorio automatizadas: Automatiza flujos de trabajo complejos, desde la entrada de datos hasta las interacciones con software.
- Múltiples bucles de agente: Soporta varios paradigmas de agente, incluyendo:
- UI-TARS-1.5: Ejecución local en Apple Silicon con MLX.
- OpenAI CUA: Utiliza el modelo preliminar de uso informático de OpenAI.
- Anthropic CUA: Se integra con las capacidades de uso informático de Anthropic.
- OmniParser-v2.0: Permite el control de la interfaz de usuario con indicaciones de "Set-of-Marks" utilizando cualquier modelo de visión.
- Fácil de usar para desarrolladores: Ofrece un SDK de Python para una fácil integración en aplicaciones personalizadas.
- Módulos completos: Incluye
Lume(gestión de VM),Lumier(interfaz Docker para VM),Computer(interfaz de control de VM),Agent(marco de agente de IA) yMCP Server(integración con Claude Desktop).
Demostraciones en acción
[Imagen: vibe-photoshop.mp4]
- Integración con Photoshop: Vea un agente de IA manipulando Photoshop, demostrando un control preciso sobre las aplicaciones gráficas.
[Imagen: mcp-claude-tableau.mp4]
- Servidor MCP con Claude Desktop y Tableau: Observe a un agente interactuar sin problemas con herramientas de inteligencia empresarial.
[Imagen: ai-gradio-clone.mp4]
- Flujo de trabajo multi-aplicación (Navegador, VS Code, Terminal): Sea testigo de cómo un agente de IA navega entre diferentes aplicaciones para completar una tarea.
[Imagen: notebook-github-cursor.mp4]
- Resolver problema de GitHub en Cursor: Un agente identifica y resuelve de forma inteligente un problema de GitHub dentro de un editor de código.
Empieza a usar C/ua
C/ua ofrece opciones de instalación flexibles para adaptarse a las preferencias de diferentes usuarios:
Opción 1: Instalación totalmente gestionada (Recomendada)
Para una configuración guiada y sencilla en macOS/Linux/Windows (vía WSL), simplemente ejecuta el siguiente comando (requiere Python 3.11+):
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/scripts/playground.sh)"
Este script se encarga de las dependencias, las descargas de imágenes de VM, la instalación de paquetes de Python y el lanzamiento de la interfaz de usuario del agente de uso informático.
Opción 2: Pasos manuales clave
Para aquellos que prefieren un enfoque más práctico:
Para la interfaz de usuario del agente C/ua (cualquier sistema, solo VMs en la nube):
pip install -U "cua-computer[all]" "cua-agent[all]"
python -m agent.ui.gradio.app
Para VMs locales de macOS/Linux (solo Apple Silicon):
# 1. Instalar Lume CLI
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/lume/scripts/install.sh)"
# 2. Obtener imagen de macOS
lume pull macos-sequoia-cua:latest
# 3. Iniciar VM
lume run macos-sequoia-cua:latest
# 4. Instalar paquetes y lanzar la interfaz de usuario
pip install -U "cua-computer[all]" "cua-agent[all]"
python -m agent.ui.gradio.app
Guía para desarrolladores
Integrar c/ua en tus propios proyectos es sencillo con su SDK de Python:
from computer import Computer
from agent import ComputerAgent, LLM
import asyncio
async def main():
# Iniciar una VM de macOS local
computer = Computer(os_type="macos")
await computer.run()
# O con C/ua Cloud Container
# computer = Computer(
# os_type="linux",
# api_key="tu_clave_api_cua_aqui",
# name="el_nombre_de_tu_contenedor_aqui"
# )
# Ejemplo: Control directo de una VM macOS con Computer
await computer.interface.left_click(100, 200)
await computer.interface.type_text("¡Hola, mundo!")
screenshot_bytes = await computer.interface.screenshot()
# Ejemplo: Crear y ejecutar un agente localmente usando mlx-community/UI-TARS-1.5-7B-6bit
agent = ComputerAgent(
computer=computer,
loop="uitars",
model=LLM(provider="mlxvlm", name="mlx-community/UI-TARS-1.5-7B-6bit")
)
async for result in agent.run("Encuentra el repositorio trycua/cua en GitHub y sigue la guía de inicio rápido"):
print(result)
if __name__ == "__main__":
asyncio.run(main())
[Imagen: Python (https://camo.githubusercontent.com/8334e487cb9a2bbcbd7f6f7472feaef41f1723e22d6d8f6eaf48724e66b166a4/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f5079746f6e2d3333333333333f6c6f676f3d7079746f6e266c6f676f436f6c6f723d7768697465266c6162656c436f6c6f723d333333333333)] [Imagen: Swift (https://camo.githubusercontent.com/580136c672053e244600b654b01a8d84475cd7a8b73ff082cfa43e6e2c14c214/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f53776966742d4630353133383f6c6f676f3d7377696674266c6f676f436f6c6f723d7768697465)] [Imagen: macOS (https://camo.githubusercontent.com/13ef9cc53c7a14220aebc0ecca23f76d9953a9d0a98166a748dcf6769b4735a0/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f6d61634f532d3030303030303f6c6f676f3d6170706c65266c6f676f436f6c6f723d463046304630)] [Imagen: Discord (https://camo.githubusercontent.com/15d038c49987b089c614a1f93c8742f024b0d05c0cb9627e52cb6f6043279553/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f446973636f72642d2532333538363546322e7376673f266c6f676f3d646973636f7264266c6f676f436f6c6f723d7768697465)]
Comunidad y Contribuciones
C/ua es un proyecto de código abierto con licencia MIT que acepta contribuciones. Puedes unirte a su comunidad de Discord para discutir ideas, obtener ayuda o compartir tus demostraciones. El proyecto también proporciona directrices claras de contribución para aquellos que deseen involucrarse.
[Imagen: Estrellas a lo largo del tiempo (https://starchar.cc/trycua/cua.svg?variant=adaptive)] [Imagen: trycua%2Fcua | Trendshift (https://camo.githubusercontent.com/fd1c9feaa725787992bb28484c1087f4c9ffd51ce204318f952a8493b0b151c0/68747470733a2f2f7472656e6473686966742e696f2f6170692f62616467652f7265706f7369746f726965732f3133363835)]
Al proporcionar una plataforma robusta para que los agentes de IA controlen los sistemas operativos, c/ua está ampliando los límites de lo que la IA puede lograr, haciendo que la automatización y la interacción complejas sean más simples y accesibles que nunca.