統計的機械学習 - yuuk1's Digital Garden

## 定義統計的機械学習（statistical machine learning）は、確率論・統計理論を基礎として入力 $x$ から出力 $y$ を予測する関数 $f$ を学習データから推定する枠組みの総体である。深層学習（ニューラルネットワーク）と対比して「古典的機械学習」とも呼ばれるが、深層学習の理解にも不可欠な概念（汎化能力・損失関数・正則化）を含む。 **基本原理**（[[@2026__応用物理__機械学習の原点 - 統計的機械学習の世界]]、§2）: - **関数推定**: 損失関数 $L(f, D)$（例: 2乗誤差）を最小化するパラメータを求める - **汎化能力**: 期待損失（未知データへの性能）を経験損失（学習データへの性能）で近似し、両者のギャップ（汎化バイアス）を制御する - **正則化**: 損失関数に複雑さのペナルティ $\lambda R(\theta)$ を加えて過学習を抑制 ## 代表的な手法 ### 線形モデルとスパースモデリング | 手法 | 正則化項 | 特徴 | |---|---|---| | リッジ回帰 | $\lambda\|\boldsymbol{\theta}\|_2^2$ | 縮小推定、閉形式解あり | | LASSO 回帰 | $\lambda\|\boldsymbol{\theta}\|_1$ | 変数選択、スパース解 | | ロジスティック回帰 | (任意) | 2値分類、確率的出力、損失が凸 | スパースモデリングは圧縮センシング・ブラックホール高解像度撮像にも応用される（[[@2026__応用物理__機械学習の原点 - 統計的機械学習の世界]]、§3.1）。 ### k-最近傍法（k-NN）新しい入力 $x$ に対して学習データの近い $k$ 個の $y$ を平均/多数決する。高次元では距離が集中し「最近傍」の意味が薄れる（次元の呪い）。 ### アンサンブル学習 [[アンサンブル学習]] を参照。 ## 次元の呪い（curse of dimensionality） $d$ 次元標準正規分布でランダムに生成した2点間の距離は $\sqrt{2d}$ 付近に集中する。そのため: - 高次元空間では「距離」が識別力を失う - モデルの自由度（パラメータ数）が次元とともに増大し、同じ学習データ数では汎化バイアスが増える対処法: 特徴量エンジニアリング（ドメイン知識に基づく次元削減）、正則化、モデル選択（交差検証法で期待損失を推定）。 ## モデル選択と交差検証未知の期待損失をデータだけから推定するには**交差検証法**（学習データと検証用データの分割を繰り返す）が基本。正則化パラメータ $\lambda$、多項式次数 $d$、k-NN の $k$ などの選択に使う。 ## ベイズモデリングとの接続ベイズ観点では損失関数の正則化項は事前分布と対応する（[[@2026__応用物理__機械学習の原点 - 統計的機械学習の世界]]、§4.1）: - ガウス事前分布 → MAP推定 → リッジ回帰 - 両側指数分布（ラプラス分布）事前分布 → MAP推定 → LASSO 回帰ベイズ推論では点推定でなく**事後分布**が得られ、推定の信頼度を表現できる。詳細は [[ベイズ最適化]]。 ## 横断的知見 - 応用物理・材料科学では計測データが貴重・少量であることが多く、汎化能力の観点から深層学習より統計的機械学習が適している場面が多い（[[@2026__応用物理__機械学習の原点 - 統計的機械学習の世界]]） - 特徴量エンジニアリングとアーキテクチャエンジニアリングは対比的だが相補的。深層学習でも正則化・過学習・汎化の概念は同一 - ベイズモデリングは物理シミュレーションをモデルに組み込める（台風予報円が典型例）ため、シミュレーション技術が発達した分野では特に有効 ## 未解決の問い - 少量データ問題における転移学習・半教師あり学習との比較: 統計的機械学習と大規模事前学習モデルの組み合わせはどのような条件で有効か？ - 高次元材料特性空間でのベイズ最適化の次元の呪い: 次元削減（主成分分析・オートエンコーダ）との組み合わせはどこまで有効か？ - XAI の信頼性: SHAP 値など変数重要度の推定は少量データ条件で安定するか？