OlmoBaseEval - yuuk1's Digital Garden

# OlmoBaseEval [[Allen Institute for AI]] が [[OLMo 3]] のベースモデル開発のために設計した評価スイート。43 の評価タスクを 5 つのクラスタ（Math / Code / MC-STEM / MC-Non-STEM / GenQA）と 4 つの Held-out タスクに整理する。以下の 3 つの分析手法を備える。 1. **タスククラスタリング**: スケーリング挙動の相関に基づきタスクをクラスタリングし、少数の代表タスクで全体傾向を把握可能にする 2. **スケーリング分析**: 中間チェックポイントでの性能推移から、完全訓練後の性能を予測する 3. **信号対雑音比（SNR）分析**: ベンチマークの信号とサンプリングノイズの比を定量化し、信頼性の高いタスクを特定するこれらにより、マイクロアニール（短時間の軽量評価ループ）の段階でデータ混合の良否を判断でき、本訓練を最後まで走らせずに設計決定を下せる。評価コードは OLMES として公開されている。(Source: [[@2025__arXiv__OLMo 3]]) ## 関連 - ソース: [[@2025__arXiv__OLMo 3]] - 開発組織: [[Allen Institute for AI]] - 使用モデル: [[OLMo 3]]