OmniParser: ビジョンベースのGUIエージェントのための画面理解の革新

June 03, 2025

GUI Automation Computer Vision AI Tools Screen Parsing Open Source

OmniParser

このプロジェクトとは

OmniParserは、純粋なビジョンベースのGUIエージェント向けに設計された包括的な画面解析ツールです。ユーザーインターフェースのスクリーンショットを構造化され理解しやすい要素に解析し、GPT-4Vなどのビジョンモデルがインターフェースの対応領域に正確に基づいたアクションを生成する能力を大幅に向上させます。

主な機能

画面要素の検出と構造化データへの解析
画面要素が操作可能かどうかの予測
アイコンの機能説明機能
細かな小さいアイコンの検出
トレーニングデータパイプライン構築のためのローカル軌跡ログ記録
Windows 11 VM制御のためのOmniToolとの統合

対象ユーザー

ビジョンベースのエージェントに取り組むAI研究者
GUIオートメーションツールを開発する開発者
GUIインタラクションエージェント用のトレーニングデータパイプラインを作成するチーム

使用方法

インストール

cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt

モデルの重みをダウンロード：

# モデルチェックポイントをローカルディレクトリOmniParser/weights/にダウンロード
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence