[What is data labeling?](https://aws.amazon.com/jp/sagemaker/data-labeling/what-is-data-labeling/) > [[機械学習]]において、データのラベリングとは、生データ(画像、テキストファイル、動画など)を識別し、機械学習モデルがそのデータから学習できるように、文脈を提供するために1つ以上の意味のある有益なラベルを追加するプロセスである。 > 例えば、写真に鳥が写っているか車が写っているか、音声記録にどの単語が含まれているか、X線写真に腫瘍が含まれているかなどをラベルで示すことができます。データのラベリングは、コンピュータビジョン、自然言語処理、音声認識など、さまざまなユースケースで必要となる > 現在、実用的な機械学習モデルの多くは、アルゴリズムを適用して1つの入力を1つの出力に対応させる、[[教師あり機械学習]]を利用しています。教師付き学習が機能するためには、モデルが正しい判断を下すために学習できるラベル付きのデータセットが必要となります。データのラベリングは、通常、人間にラベル付けされていないデータを判断してもらうことから始まります。例えば、ラベラーは、「写真に鳥が写っているかどうか」が真であるデータセットのすべての画像にタグ付けすることを求められるかもしれない。タグ付けは、単純な「はい/いいえ」のような大まかなものから、鳥に関連する画像の特定のピクセルを識別するような詳細なものまであります。機械学習モデルは、人間から提供されたラベルを使用して、"モデルトレーニング "と呼ばれるプロセスで基本的なパターンを学習します。その結果、学習されたモデルは、新しいデータの予測に使用することができます。 > 機械学習では、モデルを学習・評価するための客観的な基準となる、適切にラベル付けされたデータセットを"ground truth"と呼ぶことがあります。学習したモデルの精度はグランドトゥルースの精度に依存するため、時間とリソースをかけて精度の高いデータのラベリングを行うことが重要です。 ## Papers - [[2020__NeurIPS__Semi-Automated Data Labeling]]