OmniParser : Révolutionner la compréhension des écrans pour les agents d'interface graphique basés sur la vision
June 03, 2025
OmniParser
Présentation du projet
OmniParser est un outil complet d'analyse d'écran conçu pour les agents GUI basés uniquement sur la vision. Il transforme les captures d'écran d'interfaces utilisateur en éléments structurés et faciles à comprendre, améliorant considérablement la capacité des modèles de vision comme GPT-4V à générer des actions précisément ancrées dans les régions correspondantes de l'interface.
Fonctionnalités principales
- Détection et analyse des éléments d'écran en données structurées
- Prédiction de l'interactivité des éléments d'écran
- Capacités de description fonctionnelle des icônes
- Détection fine des petites icônes
- Journalisation locale des trajectoires pour créer des pipelines de données d'entraînement
- Intégration avec OmniTool pour le contrôle de machines virtuelles Windows 11
Public cible
- Chercheurs en IA travaillant sur des agents basés sur la vision
- Développeurs créant des outils d'automatisation d'interface
- Équipes élaborant des pipelines de données d'entraînement pour agents d'interaction GUI
Mode d'emploi
Installation
cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt
Téléchargement des poids du modèle :
# télécharger les points de contrôle du modèle dans le répertoire local OmniParser/weights/
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence
Exécution de la démo
Explorez les exemples dans demo.ipynb
ou lancez la démo Gradio :
python gradio_demo.py
URL/dépôt du projet
- Dépôt GitHub : https://github.com/microsoft/OmniParser
- Démo HuggingFace : Démo sur HuggingFace Space
- Poids des modèles : Modèles V2, Modèles V1.5
- Rapport technique : Article arXiv
Cas d'utilisation/scénarios d'application
- Amélioration des capacités des modèles de vision pour l'interaction avec l'interface
- Automatisation des tests et interactions GUI
- Création de pipelines de données d'entraînement pour agents spécifiques
- Orchestration multi-agents pour tâches complexes d'interface
- Intégration avec des LLM comme OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL), ou Anthropic Computer Use
- Navigation GUI et automatisation de tâches
- Détection d'éléments et ancrage pour l'accessibilité des interfaces