## Memo
## Structure
### 1. Standpoints
> この モデルを学習するためには、多様で大規模なデータソースが必要 である。残念ながら、セグメンテーションのためのウェブスケー ルのデータソースは存在しない。これに対処するために、我々は 「データエンジン」を構築する。すなわち、データ収集を支援す るために我々の効率的なモデルを使用し、モデルを改善するため に新たに収集したデータを使用する間を繰り返し実行する。次に 、相互に接続された各コンポーネントを紹介し、次に我々が作成 したデータセットと、我々のアプローチの有効性を実証する実験 について紹介する。
> 自然言語処理やコンピュータビジョンにおいて、 基礎モデルは、しばしば「プロンプト」技術を使用して、新しい データセットやタスクに対してゼロショットや数ショットの学習 を実行できる有望な開発である。この研究に触発され、我々はプ ロンプト可能なセグメンテーションタスクを提案する。このタス クの目標は、任意のセグメンテーションプロンプトが与えられた ときに、有効なセグメンテーションマスクを返すことである(図1 a参照)。プロンプトは、例えば、プロンプトがオブジェクトを特 定する空間情報やテキスト情報を含むことができるように、単純 に画像内の何をセグメント化するかを指定する。
### 2. Contributions
### 3. Major Ideas
### 4. Results
### 5. Discussions & Limitations
## Abstract
画像セグメンテーションのための新しいタスク、モデル、データセットであるSegment Anything (SA) プロジェクトを紹介する。我々の効率的なモデルをデータ収集ループで使用することで、11Mのライセンス画像とプライバシーを尊重した画像に10億以上のマスクを持つ、これまでで最大のセグメンテーションデータセットが構築された(圧倒的に)。このモデルは、新しい画像分布やタスクにゼロから移行できるように、プロンプトが出せるように設計・訓練されている。多くのタスクでその能力を評価した結果、そのゼロショット性能は印象的であり、しばしば完全教師ありの結果と競合するか、あるいはそれよりも優れていることがわかりました。我々は、コンピュータビジョンの基盤モデルの研究を促進するために、セグメント何でもモデル(SAM)と、1Bマスクと11M画像の対応するデータセット(SA-1B)をこのhttps URLで公開しています。
## 1. Introduction