OmniParser: ビジョンベースのGUIエージェントのための画面理解の革新
June 03, 2025
OmniParser
このプロジェクトとは
OmniParserは、純粋なビジョンベースのGUIエージェント向けに設計された包括的な画面解析ツールです。ユーザーインターフェースのスクリーンショットを構造化され理解しやすい要素に解析し、GPT-4Vなどのビジョンモデルがインターフェースの対応領域に正確に基づいたアクションを生成する能力を大幅に向上させます。
主な機能
- 画面要素の検出と構造化データへの解析
- 画面要素が操作可能かどうかの予測
- アイコンの機能説明機能
- 細かな小さいアイコンの検出
- トレーニングデータパイプライン構築のためのローカル軌跡ログ記録
- Windows 11 VM制御のためのOmniToolとの統合
対象ユーザー
- ビジョンベースのエージェントに取り組むAI研究者
- GUIオートメーションツールを開発する開発者
- GUIインタラクションエージェント用のトレーニングデータパイプラインを作成するチーム
使用方法
インストール
cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt
モデルの重みをダウンロード:
# モデルチェックポイントをローカルディレクトリOmniParser/weights/にダウンロード
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence
デモの実行
demo.ipynb
の例を探索するか、Gradioデモを実行します:
python gradio_demo.py
プロジェクトURL/リポジトリ
- GitHubリポジトリ: https://github.com/microsoft/OmniParser
- HuggingFaceデモ: HuggingFace Spaceデモ
- モデルの重み: モデルV2, モデルV1.5
- 技術レポート: arXiv論文
ユースケース/適用シナリオ
- UIインタラクションのためのビジョンモデル機能の強化
- GUIテストとインタラクションの自動化
- ドメイン固有エージェント向けトレーニングデータパイプラインの構築
- 複雑なUIタスクのためのマルチエージェントオーケストレーション
- OpenAI(4o/o1/o3-mini)、DeepSeek(R1)、Qwen(2.5VL)、Anthropic Computer Useなどのモデルとの統合
- GUIナビゲーションとタスク自動化
- UI操作保証のための要素検出と位置特定