## 定義
アンサンブル学習(ensemble learning)は、複数の学習モデル(弱学習器)の出力を統合して、単一モデルより高い予測精度を得る手法の総体である。決定木を基底学習器として使うことが多く、バギングとブースティングが2大方式である([[@2026__応用物理__機械学習の原点 - 統計的機械学習の世界]]、§3.3)。
## 基底学習器: 決定木
- 変数の閾値比較による再帰的な分岐(if 文のツリー構造)→ 解釈性が高い
- 単独では他手法と比べ精度が低い。ツリーを深くすれば訓練誤差は下がるが過学習する
- アンサンブル化することで汎化能力を向上させる
## バギング(bagging)
**手順**:
1. 元の学習データからブートストラップサンプル(復元抽出)で $B$ 個のデータセットを作成
2. 各データセットで独立に決定木を学習
3. $B$ 本の木の予測を平均(回帰)または多数決(分類)する
**ランダムフォレスト**: バギングに加えて各分岐ノードで**入力変数のランダムなサブセット**を使って学習し、木のバリエーションをさらに増やす。汎化能力と計算効率のバランスが優れる。
## ブースティング(boosting)
**手順**:
1. 浅い決定木(弱学習器)を1本学習
2. 前の木の**残差**を減らすように次の木を学習
3. 逐次追加した木の出力の総和で予測
バギングが並列(独立な木の平均)なのに対し、ブースティングは**逐次的**(前の木の誤りを補う)。
**代表的な実装**:
- **XGBoost**: 欠損値処理・カテゴリ変数対応・正則化を統合した高速実装
- **LightGBM**: 葉優先の木成長(leaf-wise)で大規模データでも高速
## 特性とトレードオフ
| 観点 | バギング(RF)| ブースティング(XGB/LGBM)|
|---|---|---|
| 学習方式 | 並列・独立 | 逐次・依存 |
| 過学習リスク | 低め | 高め(ただし正則化で制御)|
| 精度 | 高い | 一般に高い(タブラーデータで最強クラス)|
| 解釈性 | 変数重要度で部分的に | 変数重要度で部分的に |
| 速度 | 高速(並列化容易)| 実装依存(LightGBM は非常に高速)|
**解釈性の注意**: 決定木単独の解釈性(if-then ルール)はアンサンブル化で失われる。変数重要度(分割頻度に基づく指標など)を使うが、意味の解釈に注意が必要(§3.3、§2.4)。
## 深層学習との比較
- アンサンブル学習は深層学習より**高速に学習**できる([[@2026__応用物理__機械学習の原点 - 統計的機械学習の世界]]、§3.3)
- 画像・音声などの生データをそのまま入力する用途には不向き(特徴量エンジニアリングが前提)
- タブラーデータ・構造化データでは XGBoost/LightGBM が深層学習と互角以上の精度を示すことが多い
## 横断的知見
- 応用物理・材料科学では少量の計測データに構造化された記述子(特徴量)を使う場面が多く、アンサンブル学習(特にランダムフォレスト)は実用的な第一選択肢になりうる([[@2026__応用物理__機械学習の原点 - 統計的機械学習の世界]])
- [[統計的機械学習]] の枠組みでは「モデルの複雑さ」と「汎化能力」のトレードオフが中心的な問いであり、アンサンブル学習はその典型的な解決策の一つ
## 未解決の問い
- 材料科学・物理シミュレーション出力を特徴量としたアンサンブル学習の実事例での精度: 深層学習や[[ベイズ最適化]]と組み合わせるとどのくらい改善するか?
- XGBoost/LightGBM における SHAP による変数重要度の安定性: 少量データ($n < 100$)条件で信頼できる解釈が得られるか?