## 定義 アンサンブル学習(ensemble learning)は、複数の学習モデル(弱学習器)の出力を統合して、単一モデルより高い予測精度を得る手法の総体である。決定木を基底学習器として使うことが多く、バギングとブースティングが2大方式である([[@2026__応用物理__機械学習の原点 - 統計的機械学習の世界]]、§3.3)。 ## 基底学習器: 決定木 - 変数の閾値比較による再帰的な分岐(if 文のツリー構造)→ 解釈性が高い - 単独では他手法と比べ精度が低い。ツリーを深くすれば訓練誤差は下がるが過学習する - アンサンブル化することで汎化能力を向上させる ## バギング(bagging) **手順**: 1. 元の学習データからブートストラップサンプル(復元抽出)で $B$ 個のデータセットを作成 2. 各データセットで独立に決定木を学習 3. $B$ 本の木の予測を平均(回帰)または多数決(分類)する **ランダムフォレスト**: バギングに加えて各分岐ノードで**入力変数のランダムなサブセット**を使って学習し、木のバリエーションをさらに増やす。汎化能力と計算効率のバランスが優れる。 ## ブースティング(boosting) **手順**: 1. 浅い決定木(弱学習器)を1本学習 2. 前の木の**残差**を減らすように次の木を学習 3. 逐次追加した木の出力の総和で予測 バギングが並列(独立な木の平均)なのに対し、ブースティングは**逐次的**(前の木の誤りを補う)。 **代表的な実装**: - **XGBoost**: 欠損値処理・カテゴリ変数対応・正則化を統合した高速実装 - **LightGBM**: 葉優先の木成長(leaf-wise)で大規模データでも高速 ## 特性とトレードオフ | 観点 | バギング(RF)| ブースティング(XGB/LGBM)| |---|---|---| | 学習方式 | 並列・独立 | 逐次・依存 | | 過学習リスク | 低め | 高め(ただし正則化で制御)| | 精度 | 高い | 一般に高い(タブラーデータで最強クラス)| | 解釈性 | 変数重要度で部分的に | 変数重要度で部分的に | | 速度 | 高速(並列化容易)| 実装依存(LightGBM は非常に高速)| **解釈性の注意**: 決定木単独の解釈性(if-then ルール)はアンサンブル化で失われる。変数重要度(分割頻度に基づく指標など)を使うが、意味の解釈に注意が必要(§3.3、§2.4)。 ## 深層学習との比較 - アンサンブル学習は深層学習より**高速に学習**できる([[@2026__応用物理__機械学習の原点 - 統計的機械学習の世界]]、§3.3) - 画像・音声などの生データをそのまま入力する用途には不向き(特徴量エンジニアリングが前提) - タブラーデータ・構造化データでは XGBoost/LightGBM が深層学習と互角以上の精度を示すことが多い ## 横断的知見 - 応用物理・材料科学では少量の計測データに構造化された記述子(特徴量)を使う場面が多く、アンサンブル学習(特にランダムフォレスト)は実用的な第一選択肢になりうる([[@2026__応用物理__機械学習の原点 - 統計的機械学習の世界]]) - [[統計的機械学習]] の枠組みでは「モデルの複雑さ」と「汎化能力」のトレードオフが中心的な問いであり、アンサンブル学習はその典型的な解決策の一つ ## 未解決の問い - 材料科学・物理シミュレーション出力を特徴量としたアンサンブル学習の実事例での精度: 深層学習や[[ベイズ最適化]]と組み合わせるとどのくらい改善するか? - XGBoost/LightGBM における SHAP による変数重要度の安定性: 少量データ($n < 100$)条件で信頼できる解釈が得られるか?