Peekaboo: CLI alimentado por IA para macOS, capturas de pantalla y GUI
Peekaboo: CLI alimentado por IA para macOS, capturas de pantalla y GUI\n\nEn un mundo donde la IA se integra cada vez más en nuestros flujos de trabajo, contar con una herramienta ligera y programable que pueda ver y actuar sobre tu escritorio es un cambio de juego. Peekaboo es esa herramienta. Es una CLI de macOS de código libre con licencia MIT y un servidor MCP opcional que te permite capturar pantallas, inspeccionar elementos de UI y enviar comandos precisos – todo mientras usas modelos GPT‑style o modelos Ollama locales para razonar sobre la pantalla.\n\n## ¿Por qué Peekaboo? ¿Qué lo hace destacar?\n\n| Característica | ¿Qué hace? | Por qué importa |\n|-----------------|------------|----------------|\n| Precisión pixel | Capturas de ventanas, menús o de la pantalla completa, opcionalmente con escala Retina | Proporciona a la IA la fidelidad necesaria para una comprensión visual fiable |\n| Navegación en lenguaje natural | Comandos como peekaboo \"Open Notes and create a TODO list\" | Permite a usuarios no técnicos autorizar automatizaciones en inglés simple |\n| Conjunto de herramientas | see, click, type, scroll, menu, dock, etc. | Cada herramienta corresponde a una acción de UI, habilitando flujos de trabajo complejos |\n| AI multi‑proveedor | GPT‑5.1, Claude 4.x, Grok 4‑fast, Gemini 2.5, local Ollama | Elige el modelo que se ajuste a tu privacidad o presupuesto |\n| CLI + servidor MCP | Un único binario funciona para scripts de línea de comandos y como complemento para Claude Desktop o Cursor | Versatilidad sin duplicar herramientas |\n| Código abierto y comunitario | 2000+ estrellas, colaboradores activos, licencia MIT | Sin bloqueo, puedes bifurcar o añadir funciones |\n\n## Empezando\n\n### 1. Instalar la App y la CLI de macOS\n\nbash\nbrew install steipete/tap/peekaboo\n\n\nLa fórmula de Homebrew incluye el binario Swift nativo, una aplicación macOS para uso por arrastrar y soltar, y una copia gestionada por Homebrew del herramienta CLI.\n\n### 2. Instalar como servidor MCP (Node 22+)\n\nSi prefieres ejecutar Peekaboo desde un entorno JavaScript o integrarlo con la interfaz MCP de Claude Desktop/Cursor:\n\nbash\nnpx -y @steipete/peekaboo\n\n\nEsto lanzará un servidor MCP escuchando en el puerto por defecto, listo para aceptar solicitudes desde tu AI de escritorio favorito.\n\n## Ejemplos rápido\n\nA continuación se muestran algunos fragmentos de línea de comandos que demuestran los casos de uso más comunes de Peekaboo.\n\nbash\n# Capturar la pantalla completa con Retina 2x y guardarla\npeekaboo image --mode screen --retina --path ~/Desktop/screen.png\n\n\nbash\n# Capturar una captura de Safari, extraer el id de snapshot y hacer clic en una etiqueta\nsnapshot_id=$(peekaboo see --app Safari --json-output | jq -r '.data.snapshot_id')\npeekaboo click --on \"Reload this page\" --snapshot \"$snapshot_id\"\n\n\nbash\n# Ejecutar un script completo de automatización en lenguaje natural\npeekaboo \"Open Notes and create a TODO list with three items\"\n\n\nbash\n# Usar la CLI para listar todas las ventanas actuales\npeekaboo list windows\n\n\n### 4. Escribir scripts de automatización .peekaboo.json\nLa sub‑comando run de Peekaboo te permite crear flujos de trabajo deterministas y verificables:\n\njson\n{\n \"steps\": [\n {\"click\": {\"on\": \"Google Search\", \"app\": \"Safari\"}},\n {\"type\": {\"text\": \"OpenAI API\", \"delay_ms\": 200}},\n {\"press\": {\"key\": \"Enter\", \"repeat\": 1}}\n ]\n}\n\n\nLuego ejecuta peekaboo run script.json.\n\n## Extender la herramienta con modelos AI personalizados\n\nPeekaboo usa GPT‑5.1 por defecto, pero puedes dirigirlo a cualquier modelo OpenAI, Anthropic, xAI, Gemini o Ollama local simplemente configurando la variable de entorno PEEKABOO_AI_PROVIDERS o usando peekaboo config add:\n\nbash\npeekaboo config add openai/gpt-5.1\npeekaboo config add anthropic/claude-opus-4\npeekaboo config add ollama/llava\n\n\nEn tus scripts JSON o prompts interactivos, ahora puedes pedir al AI que genere coordenadas de captura, interprete visión o sugiera próximas acciones.\n\n## Casos de uso comunes\n\n| Escenario | ¿Cómo puede ayudar Peekaboo? |\n|----------|-------------|\n| Pruebas de UI automatizadas | Usa see para capturar el árbol tipo DOM, click y type para simular flujos de usuario, y scripts de aserción para comparar snapshots |\n| Flujos de trabajo controlados por voz | Canaliza la salida de reconocimiento de voz a un prompt de Peekaboo y deja que la IA decida cuál UI dirigir |\n| Bots de escritorio | Combina Peekaboo con frameworks como robotjs o expect para automatización completa en macOS y IA |\n| Auditorías de accesibilidad | Inspecciona el árbol de accesibilidad con see y envíalo a la IA para generar informes de auditoría |\n\n## Contribuir y comunidad\n\nPeekaboo se mantiene activamente por @steipete y un puñado de colaboradores. Si deseas agregar una nueva característica, abre una pull request, o simplemente reportar un problema, consulta las directrices en el CONTRIBUTING.md.\n\nLa licencia MIT garantiza que puedes bifurcar, modificar y distribuir sin restricciones—perfecto tanto para hobbyistas como para desarrolladores profesionales.\n\n## Conclusión\n\nPeekaboo transforma una captura de pantalla en una UI programable. Si estás escribiendo una automatización de una sola línea o construyendo un asistente asistido por IA completo, esta CLI código abierto te ofrece el poder y la inteligencia que necesitas—todo gratis. Consíguela, pruébala en macOS y observa cómo tu productividad se dispara.\n\n¡Feliz automatización!
Artículo original:
Ver original