OmniParser : Révolutionner la compréhension des écrans pour les agents d'interface graphique basés sur la vision

OmniParser

Logo

Présentation du projet

OmniParser est un outil complet d'analyse d'écran conçu pour les agents GUI basés uniquement sur la vision. Il transforme les captures d'écran d'interfaces utilisateur en éléments structurés et faciles à comprendre, améliorant considérablement la capacité des modèles de vision comme GPT-4V à générer des actions précisément ancrées dans les régions correspondantes de l'interface.

Fonctionnalités principales

  • Détection et analyse des éléments d'écran en données structurées
  • Prédiction de l'interactivité des éléments d'écran
  • Capacités de description fonctionnelle des icônes
  • Détection fine des petites icônes
  • Journalisation locale des trajectoires pour créer des pipelines de données d'entraînement
  • Intégration avec OmniTool pour le contrôle de machines virtuelles Windows 11

Public cible

  • Chercheurs en IA travaillant sur des agents basés sur la vision
  • Développeurs créant des outils d'automatisation d'interface
  • Équipes élaborant des pipelines de données d'entraînement pour agents d'interaction GUI

Mode d'emploi

Installation

cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt

Téléchargement des poids du modèle :

# télécharger les points de contrôle du modèle dans le répertoire local OmniParser/weights/
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence

Exécution de la démo

Explorez les exemples dans demo.ipynb ou lancez la démo Gradio :

python gradio_demo.py

URL/dépôt du projet

Cas d'utilisation/scénarios d'application

  • Amélioration des capacités des modèles de vision pour l'interaction avec l'interface
  • Automatisation des tests et interactions GUI
  • Création de pipelines de données d'entraînement pour agents spécifiques
  • Orchestration multi-agents pour tâches complexes d'interface
  • Intégration avec des LLM comme OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL), ou Anthropic Computer Use
  • Navigation GUI et automatisation de tâches
  • Détection d'éléments et ancrage pour l'accessibilité des interfaces

Partager cet article