C/ua: Tu sistema operativo de agente IA en un contenedor

C/ua: Dando a los agentes de IA control total sobre el sistema operativo

[Imagen: Logotipo de Cua (https://github.com/trycua/cua/raw/main/img/logo_black.png)]

C/ua (pronunciado "kuu-a") es un proyecto de código abierto revolucionario diseñado para dar a los agentes de IA control total del sistema operativo dentro de contenedores virtuales. Promocionado como "Docker para agentes de IA de uso informático", c/ua permite a desarrolladores y entusiastas de la IA ejecutar agentes de IA sofisticados de forma local o desplegarlos en la nube, lo que les permite interactuar y automatizar tareas en sistemas operativos completos.

¿Qué es C/ua?

En esencia, c/ua es un marco robusto que facilita la integración de agentes de IA con entornos virtualizados. Utiliza Lume CLI para la gestión de máquinas virtuales macOS/Linux de alto rendimiento y Lumier para una interfaz similar a Docker para estas máquinas virtuales. Esta potente combinación significa que los agentes de IA pueden realizar tareas del mundo real como navegar por un escritorio, interactuar con aplicaciones y ejecutar comandos como lo haría un usuario humano. Con 8.500 estrellas en GitHub y una comunidad activa, c/ua está ganando rápidamente terreno como una herramienta vital en la evolución de la IA.

Capacidades y características clave:

  • Contenerización virtual: Proporciona entornos virtuales seguros y aislados para que los agentes de IA operen.
  • Control del sistema operativo: Permite a los agentes de IA controlar sistemas macOS y Linux, con potencial para Windows (vía WSL).
  • Tareas de escritorio automatizadas: Automatiza flujos de trabajo complejos, desde la entrada de datos hasta las interacciones con software.
  • Múltiples bucles de agente: Soporta varios paradigmas de agente, incluyendo:
    • UI-TARS-1.5: Ejecución local en Apple Silicon con MLX.
    • OpenAI CUA: Utiliza el modelo preliminar de uso informático de OpenAI.
    • Anthropic CUA: Se integra con las capacidades de uso informático de Anthropic.
    • OmniParser-v2.0: Permite el control de la interfaz de usuario con indicaciones de "Set-of-Marks" utilizando cualquier modelo de visión.
  • Fácil de usar para desarrolladores: Ofrece un SDK de Python para una fácil integración en aplicaciones personalizadas.
  • Módulos completos: Incluye Lume (gestión de VM), Lumier (interfaz Docker para VM), Computer (interfaz de control de VM), Agent (marco de agente de IA) y MCP Server (integración con Claude Desktop).

Demostraciones en acción

[Imagen: vibe-photoshop.mp4] * Integración con Photoshop: Vea un agente de IA manipulando Photoshop, demostrando un control preciso sobre las aplicaciones gráficas.

[Imagen: mcp-claude-tableau.mp4] * Servidor MCP con Claude Desktop y Tableau: Observe a un agente interactuar sin problemas con herramientas de inteligencia empresarial.

[Imagen: ai-gradio-clone.mp4] * Flujo de trabajo multi-aplicación (Navegador, VS Code, Terminal): Sea testigo de cómo un agente de IA navega entre diferentes aplicaciones para completar una tarea.

[Imagen: notebook-github-cursor.mp4] * Resolver problema de GitHub en Cursor: Un agente identifica y resuelve de forma inteligente un problema de GitHub dentro de un editor de código.

Empieza a usar C/ua

C/ua ofrece opciones de instalación flexibles para adaptarse a las preferencias de diferentes usuarios:

Opción 1: Instalación totalmente gestionada (Recomendada)

Para una configuración guiada y sencilla en macOS/Linux/Windows (vía WSL), simplemente ejecuta el siguiente comando (requiere Python 3.11+):

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/scripts/playground.sh)"

Este script se encarga de las dependencias, las descargas de imágenes de VM, la instalación de paquetes de Python y el lanzamiento de la interfaz de usuario del agente de uso informático.

Opción 2: Pasos manuales clave

Para aquellos que prefieren un enfoque más práctico:

Para la interfaz de usuario del agente C/ua (cualquier sistema, solo VMs en la nube):

pip install -U "cua-computer[all]" "cua-agent[all]"
python -m agent.ui.gradio.app

Para VMs locales de macOS/Linux (solo Apple Silicon):

# 1. Instalar Lume CLI
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/lume/scripts/install.sh)"

# 2. Obtener imagen de macOS
lume pull macos-sequoia-cua:latest

# 3. Iniciar VM
lume run macos-sequoia-cua:latest

# 4. Instalar paquetes y lanzar la interfaz de usuario
pip install -U "cua-computer[all]" "cua-agent[all]"
python -m agent.ui.gradio.app

Guía para desarrolladores

Integrar c/ua en tus propios proyectos es sencillo con su SDK de Python:

from computer import Computer
from agent import ComputerAgent, LLM
import asyncio

async def main():
    # Iniciar una VM de macOS local
    computer = Computer(os_type="macos")
    await computer.run()

    # O con C/ua Cloud Container
    # computer = Computer(
    #    os_type="linux",
    #    api_key="tu_clave_api_cua_aqui",
    #    name="el_nombre_de_tu_contenedor_aqui"
    # )

    # Ejemplo: Control directo de una VM macOS con Computer
    await computer.interface.left_click(100, 200)
    await computer.interface.type_text("¡Hola, mundo!")
    screenshot_bytes = await computer.interface.screenshot()

    # Ejemplo: Crear y ejecutar un agente localmente usando mlx-community/UI-TARS-1.5-7B-6bit
    agent = ComputerAgent(
        computer=computer,
        loop="uitars",
        model=LLM(provider="mlxvlm", name="mlx-community/UI-TARS-1.5-7B-6bit")
    )
    async for result in agent.run("Encuentra el repositorio trycua/cua en GitHub y sigue la guía de inicio rápido"):
        print(result)

if __name__ == "__main__":
    asyncio.run(main())

[Imagen: Python (https://camo.githubusercontent.com/8334e487cb9a2bbcbd7f6f7472feaef41f1723e22d6d8f6eaf48724e66b166a4/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f5079746f6e2d3333333333333f6c6f676f3d7079746f6e266c6f676f436f6c6f723d7768697465266c6162656c436f6c6f723d333333333333)] [Imagen: Swift (https://camo.githubusercontent.com/580136c672053e244600b654b01a8d84475cd7a8b73ff082cfa43e6e2c14c214/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f53776966742d4630353133383f6c6f676f3d7377696674266c6f676f436f6c6f723d7768697465)] [Imagen: macOS (https://camo.githubusercontent.com/13ef9cc53c7a14220aebc0ecca23f76d9953a9d0a98166a748dcf6769b4735a0/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f6d61634f532d3030303030303f6c6f676f3d6170706c65266c6f676f436f6c6f723d463046304630)] [Imagen: Discord (https://camo.githubusercontent.com/15d038c49987b089c614a1f93c8742f024b0d05c0cb9627e52cb6f6043279553/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f446973636f72642d2532333538363546322e7376673f266c6f676f3d646973636f7264266c6f676f436f6c6f723d7768697465)]

Comunidad y Contribuciones

C/ua es un proyecto de código abierto con licencia MIT que acepta contribuciones. Puedes unirte a su comunidad de Discord para discutir ideas, obtener ayuda o compartir tus demostraciones. El proyecto también proporciona directrices claras de contribución para aquellos que deseen involucrarse.

[Imagen: Estrellas a lo largo del tiempo (https://starchar.cc/trycua/cua.svg?variant=adaptive)] [Imagen: trycua%2Fcua | Trendshift (https://camo.githubusercontent.com/fd1c9feaa725787992bb28484c1087f4c9ffd51ce204318f952a8493b0b151c0/68747470733a2f2f7472656e6473686966742e696f2f6170692f62616467652f7265706f7369746f726965732f3133363835)]

Al proporcionar una plataforma robusta para que los agentes de IA controlen los sistemas operativos, c/ua está ampliando los límites de lo que la IA puede lograr, haciendo que la automatización y la interacción complejas sean más simples y accesibles que nunca.

Artículo original: Ver original

Compartir este artículo