Transformez les anciens téléphones Android en agents IA | Tutoriel DroidClaw

EN INTRODUCTION DroidClaw est un agent d'IA open‑source qui transforme un téléphone Android en assistant mains libres. En utilisant un modèle de langage large pour interpréter le contenu de l’écran et générer des tapotements, glissements et frappes de clavier via ADB, il peut effectuer des tâches telles que rechercher sur YouTube, envoyer des messages WhatsApp ou exécuter des workflows multi‑applications complets — sans aucune API dédiée.

CE QUE C'EST Le cœur de DroidClaw est une boucle perception → raisonnement → action : 1. Il lit l’écran grâce à un arbre d’accessibilité (ou une capture d’écran si l’arbre est absent). 2. L’état de l’écran, l’objectif de l’utilisateur en anglais courant et les actions précédentes sont envoyés à un LLM. 3. Le modèle renvoie un plan d’actions de haut niveau (ex : tap, type, swipe). 4. DroidClaw exécute ces actions via ADB, observe le résultat et le réinjecte dans l’étape suivante.

Fonctionnalités clés • Définition d’objectif en langage naturel • Gestion automatique des actions répétées et des boucles bloquées • Récupération visuelle lorsqu’un arbre d’UI est inaccessible • Mémoire conversationnelle multi‑tour • Support d’Ollama local pour un usage totalement hors ligne • Contrôle à distance via Tailscale

PRÉREQUIS SYSTÈME Matériel : téléphone Android (débogage USB activé) ou téléphone debugable Wi‑Fi Logiciel : ADB (Android Platform Tools), environnement d'exécution Bun, Node/npm non requis LLM : tout fournisseur pris en charge par DroidClaw (Groq, OpenAI, Ollama, OpenRouter, Bedrock)

ÉTAPES D'INSTALLATION 1. Installer Bun curl -fsSL https://bun.sh/install | bash 2. Installer ADB • Mac : brew install android-platform-tools • Linux : sudo apt install android-tools-adb • Windows : télécharger depuis https://developer.android.com/tools/releases/platform-tools 3. Cloner le dépôt git clone https://github.com/unitedbyai/droidclaw.git cd droidclaw 4. Installer les dépendances du projet bun install 5. Copier le fichier .env d’exemple cp .env.example .env 6. Configurer votre fournisseur LLM dans .env Exemple pour Groq (niveau gratuit) : LLM_PROVIDER=groq GROQ_API_KEY=YOUR_GROQ_KEY Ou pour Ollama local : LLM_PROVIDER=ollama OLLAMA_MODEL=llama3.2-vision

CONNECTER VOTRE TÉLÉPHONE • Activer les Options développeur → Débogage USB • Brancher le téléphone via USB ; accepter la demande • Vérifier : adb devices Devrait lister votre appareil.

EXÉCUTION DE L'AGENT Mode interactif (objectif en anglais simple) : bun run src/kernel.ts # Tapez votre objectif et appuyez sur Entrée

Mode workflow (séquence multi‑app pilotée par IA) : bun run src/kernel.ts --workflow examples/workflows/telegram-send-message.json

Flux déterministe (sans IA) : bun run src/kernel.ts --flow examples/flows/send-whatsapp.yaml

EXEMPLES D'UTILISATION - Ouvrir YouTube et rechercher "lofi hip hop" : $ bun run src/kernel.ts enter your goal: open youtube and search for "lofi hip hop" - Envoyer un message WhatsApp via un workflow préconfiguré. - Exécuter un briefing matinal nocturne qui lit les événements du calendrier, la météo et les messages Slack non lus.

CONTRÔLE À DISTANCE AVEC TAILSCALE Installer Tailscale sur le téléphone et l’hôte. Activer le débogage sans fil dans Paramètres du téléphone → Options développeur. Connecter sur le réseau : adb connect : Dès que DroidClaw peut être lancé depuis n’importe quel VPS, ordinateur portable ou cron, laissant le téléphone branché chez soi tandis que vos scripts l'exécutent de n’importe où.

CARACTÉRISTIQUES AVANCÉES • Fallback Vision : lorsqu’un arbre d’accessibilité est vide, l’agent envoie une capture d’écran au LLM. • Détection de boucle bloquée : si l’écran ne change pas après quelques pas, l’agent injecte des indices de récupération. • Mémoire multi‑tour : conserve les N dernières actions dans le contexte de conversation.

DÉPANNAGE • "adb: command not found" – assurez‑vous qu’il est installé et présent dans $PATH ou définissez ADB_PATH dans .env. • "no devices found" – vérifiez de nouveau que le débogage USB est activé et que le câble prend en charge le transfert de données. • Actions répétées – augmentez MAX_STEPS ou passez à un modèle plus grand. • Arbre d’accessibilité vide – définissez VISION_MODE=always pour forcer l’envoi d’une capture d’écran.

CONCLUSION DroidClaw montre comment les LLM modernes peuvent orchestrer l’automatisation UI sans API dédiées. En alliant outils open‑source (Bun, ADB, Ollama) à une boucle perception–raisonnement–action simple, vous pouvez retransformer instantanément un ancien téléphone en assistant personnel toujours‑en‑ligne. Que vous souhaitiez automatiser la publication sur les réseaux sociaux, exécuter des workflows de recherche nocturnes ou simplement expérimenter le contrôle de téléphone alimenté par IA, le processus d’installation est simple et la flexibilité immense. Bonnes automatisations !

Original Article: Voir l’original

Partager cet article