OmniParser: ビジョンベースのGUIエージェントのための画面理解の革新

OmniParser

ロゴ

このプロジェクトとは

OmniParserは、純粋なビジョンベースのGUIエージェント向けに設計された包括的な画面解析ツールです。ユーザーインターフェースのスクリーンショットを構造化され理解しやすい要素に解析し、GPT-4Vなどのビジョンモデルがインターフェースの対応領域に正確に基づいたアクションを生成する能力を大幅に向上させます。

主な機能

  • 画面要素の検出と構造化データへの解析
  • 画面要素が操作可能かどうかの予測
  • アイコンの機能説明機能
  • 細かな小さいアイコンの検出
  • トレーニングデータパイプライン構築のためのローカル軌跡ログ記録
  • Windows 11 VM制御のためのOmniToolとの統合

対象ユーザー

  • ビジョンベースのエージェントに取り組むAI研究者
  • GUIオートメーションツールを開発する開発者
  • GUIインタラクションエージェント用のトレーニングデータパイプラインを作成するチーム

使用方法

インストール

cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt

モデルの重みをダウンロード:

# モデルチェックポイントをローカルディレクトリOmniParser/weights/にダウンロード
for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
mv weights/icon_caption weights/icon_caption_florence

デモの実行

demo.ipynbの例を探索するか、Gradioデモを実行します:

python gradio_demo.py

プロジェクトURL/リポジトリ

ユースケース/適用シナリオ

  • UIインタラクションのためのビジョンモデル機能の強化
  • GUIテストとインタラクションの自動化
  • ドメイン固有エージェント向けトレーニングデータパイプラインの構築
  • 複雑なUIタスクのためのマルチエージェントオーケストレーション
  • OpenAI(4o/o1/o3-mini)、DeepSeek(R1)、Qwen(2.5VL)、Anthropic Computer Useなどのモデルとの統合
  • GUIナビゲーションとタスク自動化
  • UI操作保証のための要素検出と位置特定

この記事を共有