タグ付きの投稿: VisionLanguage
Content related to VisionLanguage
Apple の MobileCLIP:オープンソースのモバイルビジョンモデル
February 02, 2026
Apple の MobileCLIP は、モバイルデバイス上で競争力のある精度で動作する軽量ゼロショットイメージ‑テキストモデルです。オープンソースの GitHub リポジトリには、トレーニングスクリプト、評価コード、事前学習済みチェックポイント、すぐに実行可能な iOS アプリが含まれています。S0 から S4、B、L‑14 までの複数の MobileCLIP バリアントと、新しい MobileCLIP2 シリーズをサポートし、すべて OpenCLIP と HuggingFace と統合されています。本記事では、アーキテクチャ、データセット準備 (DataCompDR, DFNDR)、ViT と比較した性能ベンチマーク、クイックスタート推論レシピ、開発者が独自アプリにモデルを拡張またはファインチューニングする方法を解説しています。