OmniParser: Revolucionando la comprensión de pantallas para agentes de interfaz gráfica basados en visión
June 03, 2025
OmniParser
¿Qué es este proyecto?
OmniParser es una herramienta integral de análisis de pantallas diseñada para agentes de interfaz gráfica basados en visión pura. Analiza capturas de pantalla de interfaces de usuario y las convierte en elementos estructurados y fáciles de entender, mejorando significativamente la capacidad de los modelos de visión como GPT-4V para generar acciones que pueden anclarse con precisión en las regiones correspondientes de la interfaz.
Características principales
- Detección de elementos de pantalla y análisis en datos estructurados
- Predicción de si los elementos de pantalla son interactuables o no
- Capacidades de descripción funcional de iconos
- Detección detallada de iconos pequeños
- Registro local de trayectorias para crear canales de datos de entrenamiento
- Integración con OmniTool para control de máquinas virtuales Windows 11
Público objetivo
- Investigadores de IA que trabajan en agentes basados en visión
- Desarrolladores que crean herramientas de automatización de interfaz gráfica
- Equipos que crean canales de datos de entrenamiento para agentes de interacción con interfaces gráficas
Cómo utilizarlo
Instalación
cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt
Descarga de los pesos del modelo:
# descargar los puntos de control del modelo al directorio local OmniParser/weights/
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence
Ejecutando la demo
Explora ejemplos en demo.ipynb
o ejecuta la demo de Gradio:
python gradio_demo.py
URL/repositorio del proyecto
- Repositorio GitHub: https://github.com/microsoft/OmniParser
- Demo en HuggingFace: Demo en HuggingFace Space
- Pesos del Modelo: Modelos V2, Modelos V1.5
- Informe Técnico: Artículo en arXiv
Casos de uso/escenarios de aplicación
- Mejora de las capacidades de modelos de visión para interacción con interfaz de usuario
- Automatización de pruebas e interacción con interfaces gráficas
- Creación de canales de datos de entrenamiento para agentes de dominio específico
- Orquestación multi-agente para tareas complejas de interfaz
- Integración con LLMs como OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) o Anthropic Computer Use
- Navegación por interfaz gráfica y automatización de tareas
- Detección de elementos y anclaje para accesibilidad de interfaces