C/ua : Votre système d'exploitation d'agent IA dans un conteneur

C/ua : quand les agents IA maîtrisent votre système d'exploitation

C/ua (prononcé "coua") est un projet open-source novateur conçu pour donner aux agents d'IA un contrôle total sur le système d'exploitation, le tout au sein de conteneurs virtuels. Présenté comme le "Docker pour agents IA orientés usage informatique", c/ua permet aux développeurs et passionnés d'IA d'exécuter des agents IA sophistiqués en local ou de les déployer dans le cloud. Ces agents peuvent dès lors interagir avec des systèmes d'exploitation entiers et y automatiser des tâches.

Qu'est-ce que C/ua ?

Au fond, c/ua est un cadre robuste qui facilite l'intégration des agents d'IA avec des environnements virtualisés. Il s'appuie sur Lume CLI pour une gestion haute performance des machines virtuelles macOS/Linux et sur Lumier pour une interface de type Docker vers ces machines. Cette puissante combinaison signifie que les agents d'IA peuvent effectuer des tâches réelles comme naviguer sur un bureau, interagir avec des applications et exécuter des commandes, exactement comme le ferait un humain. Avec 8 500 étoiles sur GitHub et une communauté active, c/ua gagne rapidement du terrain comme outil essentiel dans l'évolution de l'IA.

Capacités et fonctionnalités clés :

  • Conteneurisation virtuelle : Offre des environnements virtuels sécurisés et isolés permettant aux agents IA d'opérer.
  • Contrôle du système d'exploitation : Permet aux agents IA de contrôler les systèmes macOS et Linux, avec un potentiel pour Windows (via WSL).
  • Automatisation des tâches de bureau : Automatise des flux de travail complexes, de la saisie de données aux interactions logicielles.
  • Boucles d'agents multiples : Prend en charge divers paradigmes d'agents, notamment :
    • UI-TARS-1.5 : Exécution locale sur Apple Silicon avec MLX.
    • OpenAI CUA : Utilise le modèle d'aperçu d'utilisation informatique d'OpenAI.
    • Anthropic CUA : S'intègre aux capacités d'utilisation informatique d'Anthropic.
    • OmniParser-v2.0 : Permet le contrôle de l'interface utilisateur avec une incitation Set-of-Marks, en utilisant n'importe quel modèle de vision.
  • Convivialité pour les développeurs : Propose un SDK Python pour une intégration facile dans les applications personnalisées.
  • Modules complets : Inclut Lume (gestion des VM), Lumier (interface Docker pour les VM), Computer (interface de contrôle des VM), Agent (cadre pour agents IA) et MCP Server (intégration avec Claude Desktop).

Démonstrations en action

[Image : vibe-photoshop.mp4] * Intégration Photoshop : Voyez un agent IA manipuler Photoshop, démontrant un contrôle précis sur les applications graphiques.

[Image : mcp-claude-tableau.mp4] * Serveur MCP avec Claude Desktop et Tableau : Regardez un agent interagir de manière fluide avec des outils de business intelligence.

[Image : ai-gradio-clone.mp4] * Flux de travail multi-applications (Navigateur, VS Code, Terminal) : Observez un agent IA naviguer entre différentes applications pour accomplir une tâche.

[Image : notebook-github-cursor.mp4] * Résolution d'un problème GitHub dans Cursor : Un agent identifie et résout intelligemment un problème GitHub directement dans un éditeur de code.

Premiers pas avec C/ua

C/ua propose des options d'installation flexibles pour s'adapter aux préférences des utilisateurs :

Option 1 : Installation entièrement gérée (recommandée)

Pour une configuration guidée et sans tracas sur macOS/Linux/Windows (via WSL), exécutez simplement la commande suivante (requiert Python 3.11+) :

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/scripts/playground.sh)"

Ce script gère les dépendances, le téléchargement des images de VM, l'installation des paquets Python et le lancement de l'interface utilisateur de l'agent d'utilisation informatique.

Option 2 : Étapes manuelles clés

Pour ceux qui préfèrent une approche plus pratique :

Pour l'interface utilisateur de l'agent C/ua (tout système, VM cloud uniquement) :

pip install -U "cua-computer[all]" "cua-agent[all]"
python -m agent.ui.gradio.app

Pour les machines virtuelles macOS/Linux locales (Apple Silicon uniquement) :

# 1. Installer Lume CLI
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/lume/scripts/install.sh)"

# 2. Télécharger l'image macOS
lume pull macos-sequoia-cua:latest

# 3. Démarrer la VM
lume run macos-sequoia-cua:latest

# 4. Installer les paquets et lancer l'interface utilisateur
pip install -U "cua-computer[all]" "cua-agent[all]"
python -m agent.ui.gradio.app

Guide du développeur

L'intégration de c/ua dans vos propres projets est simple grâce à son SDK Python :

from computer import Computer
from agent import ComputerAgent, LLM
import asyncio

async def main():
    # Démarrer une VM macOS locale
    computer = Computer(os_type="macos")
    await computer.run()

    # Ou avec C/ua Cloud Container
    # computer = Computer(
    #    os_type="linux",
    #    api_key="votre_clé_api_cua_ici",
    #    name="votre_nom_de_conteneur_ici"
    # )

    # Exemple : Contrôle direct d'une VM macOS avec Computer
    await computer.interface.left_click(100, 200)
    await computer.interface.type_text("Bonjour le monde !")
    screenshot_bytes = await computer.interface.screenshot()

    # Exemple : Créer et exécuter un agent localement en utilisant mlx-community/UI-TARS-1.5-7B-6bit
    agent = ComputerAgent(
        computer=computer,
        loop="uitars",
        model=LLM(provider="mlxvlm", name="mlx-community/UI-TARS-1.5-7B-6bit")
    )
    async for result in agent.run("Trouvez le dépôt trycua/cua sur GitHub et suivez le guide de démarrage rapide"):
        print(result)

if __name__ == "__main__":
    asyncio.run(main())

Communauté et contributions

C/ua est un projet open-source sous licence MIT qui accueille les contributions. Vous pouvez rejoindre leur communauté Discord pour discuter d'idées, obtenir de l'aide ou partager vos démonstrations. Le projet fournit également des directives claires pour ceux qui souhaitent s'impliquer.

En offrant une plateforme robuste permettant aux agents IA de contrôler les systèmes d'exploitation, c/ua repousse les limites de ce que l'IA peut accomplir, rendant l'automatisation et l'interaction complexes plus simples et plus accessibles que jamais.

Original Article: Voir l’original

Partager cet article