# OlmoBaseEval
[[Allen Institute for AI]] が [[OLMo 3]] のベースモデル開発のために設計した評価スイート。43 の評価タスクを 5 つのクラスタ(Math / Code / MC-STEM / MC-Non-STEM / GenQA)と 4 つの Held-out タスクに整理する。以下の 3 つの分析手法を備える。
1. **タスククラスタリング**: スケーリング挙動の相関に基づきタスクをクラスタリングし、少数の代表タスクで全体傾向を把握可能にする
2. **スケーリング分析**: 中間チェックポイントでの性能推移から、完全訓練後の性能を予測する
3. **信号対雑音比(SNR)分析**: ベンチマークの信号とサンプリングノイズの比を定量化し、信頼性の高いタスクを特定する
これらにより、マイクロアニール(短時間の軽量評価ループ)の段階でデータ混合の良否を判断でき、本訓練を最後まで走らせずに設計決定を下せる。評価コードは OLMES として公開されている。(Source: [[@2025__arXiv__OLMo 3]])
## 関連
- ソース: [[@2025__arXiv__OLMo 3]]
- 開発組織: [[Allen Institute for AI]]
- 使用モデル: [[OLMo 3]]