アンサンブル学習 - yuuk1's Digital Garden

## 定義アンサンブル学習（ensemble learning）は、複数の学習モデル（弱学習器）の出力を統合して、単一モデルより高い予測精度を得る手法の総体である。決定木を基底学習器として使うことが多く、バギングとブースティングが2大方式である（[[@2026__応用物理__機械学習の原点 - 統計的機械学習の世界]]、§3.3）。 ## 基底学習器: 決定木 - 変数の閾値比較による再帰的な分岐（if 文のツリー構造）→ 解釈性が高い - 単独では他手法と比べ精度が低い。ツリーを深くすれば訓練誤差は下がるが過学習する - アンサンブル化することで汎化能力を向上させる ## バギング（bagging） **手順**: 1. 元の学習データからブートストラップサンプル（復元抽出）で $B$ 個のデータセットを作成 2. 各データセットで独立に決定木を学習 3. $B$ 本の木の予測を平均（回帰）または多数決（分類）する **ランダムフォレスト**: バギングに加えて各分岐ノードで**入力変数のランダムなサブセット**を使って学習し、木のバリエーションをさらに増やす。汎化能力と計算効率のバランスが優れる。 ## ブースティング（boosting） **手順**: 1. 浅い決定木（弱学習器）を1本学習 2. 前の木の**残差**を減らすように次の木を学習 3. 逐次追加した木の出力の総和で予測バギングが並列（独立な木の平均）なのに対し、ブースティングは**逐次的**（前の木の誤りを補う）。 **代表的な実装**: - **XGBoost**: 欠損値処理・カテゴリ変数対応・正則化を統合した高速実装 - **LightGBM**: 葉優先の木成長（leaf-wise）で大規模データでも高速 ## 特性とトレードオフ | 観点 | バギング（RF）| ブースティング（XGB/LGBM）| |---|---|---| | 学習方式 | 並列・独立 | 逐次・依存 | | 過学習リスク | 低め | 高め（ただし正則化で制御）| | 精度 | 高い | 一般に高い（タブラーデータで最強クラス）| | 解釈性 | 変数重要度で部分的に | 変数重要度で部分的に | | 速度 | 高速（並列化容易）| 実装依存（LightGBM は非常に高速）| **解釈性の注意**: 決定木単独の解釈性（if-then ルール）はアンサンブル化で失われる。変数重要度（分割頻度に基づく指標など）を使うが、意味の解釈に注意が必要（§3.3、§2.4）。 ## 深層学習との比較 - アンサンブル学習は深層学習より**高速に学習**できる（[[@2026__応用物理__機械学習の原点 - 統計的機械学習の世界]]、§3.3） - 画像・音声などの生データをそのまま入力する用途には不向き（特徴量エンジニアリングが前提） - タブラーデータ・構造化データでは XGBoost/LightGBM が深層学習と互角以上の精度を示すことが多い ## 横断的知見 - 応用物理・材料科学では少量の計測データに構造化された記述子（特徴量）を使う場面が多く、アンサンブル学習（特にランダムフォレスト）は実用的な第一選択肢になりうる（[[@2026__応用物理__機械学習の原点 - 統計的機械学習の世界]]） - [[統計的機械学習]] の枠組みでは「モデルの複雑さ」と「汎化能力」のトレードオフが中心的な問いであり、アンサンブル学習はその典型的な解決策の一つ - **強力なモデルどうしのアンサンブルが思ったより効果が小さい理由を[[モデル表現収束]]が説明する**: 弱いモデルはそれぞれ異なる欠点を持つため束ねると補い合い大きな改善が得られるが、強力なモデルどうしは既に表現が似ているため束ねても似たような出力しか得られない。ただし「プラトン的表現」へ異なるアプローチで近づいているならば、その中点が真理により近いという意味でアンサンブルの効果が残る可能性もある。(Source: [[joisino-アンナカレーニナの法則-2025]]) ## 未解決の問い - 材料科学・物理シミュレーション出力を特徴量としたアンサンブル学習の実事例での精度: 深層学習や[[ベイズ最適化]]と組み合わせるとどのくらい改善するか？ - XGBoost/LightGBM における SHAP による変数重要度の安定性: 少量データ（$n < 100$）条件で信頼できる解釈が得られるか？