OmniParser : Révolutionner la compréhension des écrans pour les agents d'interface graphique basés sur la vision

June 03, 2025

Projets Open Source Pratiques

GUI Automation Computer Vision AI Tools Screen Parsing Open Source

OmniParser

Présentation du projet

OmniParser est un outil complet d'analyse d'écran conçu pour les agents GUI basés uniquement sur la vision. Il transforme les captures d'écran d'interfaces utilisateur en éléments structurés et faciles à comprendre, améliorant considérablement la capacité des modèles de vision comme GPT-4V à générer des actions précisément ancrées dans les régions correspondantes de l'interface.

Fonctionnalités principales

Détection et analyse des éléments d'écran en données structurées
Prédiction de l'interactivité des éléments d'écran
Capacités de description fonctionnelle des icônes
Détection fine des petites icônes
Journalisation locale des trajectoires pour créer des pipelines de données d'entraînement
Intégration avec OmniTool pour le contrôle de machines virtuelles Windows 11

Public cible

Chercheurs en IA travaillant sur des agents basés sur la vision
Développeurs créant des outils d'automatisation d'interface
Équipes élaborant des pipelines de données d'entraînement pour agents d'interaction GUI

Mode d'emploi

Installation

cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt

Téléchargement des poids du modèle :

# télécharger les points de contrôle du modèle dans le répertoire local OmniParser/weights/
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence

Exécution de la démo

Explorez les exemples dans demo.ipynb ou lancez la démo Gradio :

python gradio_demo.py

URL/dépôt du projet

Dépôt GitHub : https://github.com/microsoft/OmniParser
Démo HuggingFace : Démo sur HuggingFace Space
Poids des modèles : Modèles V2, Modèles V1.5
Rapport technique : Article arXiv

Cas d'utilisation/scénarios d'application

Amélioration des capacités des modèles de vision pour l'interaction avec l'interface
Automatisation des tests et interactions GUI
Création de pipelines de données d'entraînement pour agents spécifiques
Orchestration multi-agents pour tâches complexes d'interface
Intégration avec des LLM comme OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL), ou Anthropic Computer Use
Navigation GUI et automatisation de tâches
Détection d'éléments et ancrage pour l'accessibilité des interfaces