## Memo
- [https://twitter.com/stateofai_ja/status/1448043093198999555?s=21](https://twitter.com/stateofai_ja/status/1448043093198999555?s=21)
## Abstract
本研究では,コンピュータビジョン,自然言語,オーディオのデータセットのうち,最も一般的に使用されている10個のテストセットにおけるラベルエラーをアルゴリズムによって特定し,これらのラベルエラーがベンチマークの結果に影響を与える可能性を調査しました.10個のデータセットの平均誤差は3.4%と推定され、例えばImageNetの検証セットでは2916個のラベルエラーが6%を占めていました。推定されるラベルエラーは、自信を持って学習することで発見され、クラウドソーシングで人間が検証します(アルゴリズムでフラグを付けた候補の54%が実際に誤ってラベル付けされています)。意外なことに、誤ってラベル付けされたデータの割合が高い現実のデータセットでは、容量の小さいモデルの方が、容量の大きいモデルよりも実質的に有用であることがわかった。例えば、ラベルを修正したImageNetでは、ResNet-18がResNetを上回りました。例えば、ラベルを修正したImageNetでは、元々誤ったラベルを付けたテスト例の割合がわずか6%増加しただけで、ResNet-18はResNet-50を上回ります。CIFAR-10のラベルを修正した場合。また、CIFAR-10のラベルを修正した場合、VGG-11はVGG-19よりも優れていますが、これは元々のラベルが間違っていたテスト例の割合が5%増加した場合です。従来、MLの実務者は、テストの精度に基づいてどのモデルを導入するかを選択していましたが、今回の発見は、特にノイズの多い実世界のデータセットにおいては、正しくラベル付けされたテストセットでモデルを判断する方が有用であることを示唆しており、注意が必要です。
## 1. Introduction