統計学の過去50年における最も重要なアイディア

[【論文紹介】統計学の過去50年における最も重要なアイディアとは？ - Qiita](https://qiita.com/gen_nospare/items/44d8e3530c66309c611f) 1. [[反事実]]（counterfactual）に基づく[[因果推論]] - 因果推論を統計的または予測的な枠組みの中に置く - 観察されていないデータとして統計モデル内で表現できる - [[サーベイサンプリング]]や欠損データの代入のアイデアへ 2. [[ブートストラップ]]とシミュレーションに基づいた推論 - ノンパラメトリック・モデリングの第一歩 3. [[オーバーパラメータ]]（overparameterized）モデルと[[正則化]]（[[ガウス過程]]，[[Lasso]], horseshoe, ベイズnonparametric priorなど） - データからパラメータを推定する能力に基づいてモデルのサイズを制限するという既存の慣習を形式化・一般化したもの - [[交差検証]]や[[情報量規準]]と関連 4. ベイズマルチレベル（階層）モデル - データから事前分布を推定する「[[経験的ベイズ]]（empirical Bayes）」の手法を定式化したもの 5. 汎用的な計算アルゴリズム（[[EMアルゴリズム|EM]], MCMC, SMC, HMC, [[変分法]]など） 6. 適応的決定分析（[[ベイズ最適化]]，[[強化学習]]など） - 古典的な実験計画を超えて最適制御の工学的問題を統計的学習の分野に結びつける 7. [[ロバスト推論]]（MM-openの世界など） - 推論の安定性に関する直感を定式化したもの - 外れ値やモデルの誤特定などの漠然とした懸念を処理するための様々な手順を評価し，モデル化する枠組みを提供 - ノンパラメトリック推定へ影響 8. 探索的データ分析（データ分析の諸ステップでの視覚化） - 統計学の新しい考え方やデータ分析の新しい方法を生み出すきっかけ - 過去50年間に開発された機械学習メタアルゴリズムの多くは，データやモデルを何らかの方法で分割している - ビッグデータ次の数十年 - 既存の手法の組み合わせ - 正則化を用いて推定された潜在的なアウトカムの高度なモデルを用いた因果推論 - 時間とともに変化するネットワークなどの構造化データのための複雑なモデル - マルチレベルモデルのロバスト推論 - オーバーパラメータモデルのための探索的データ分析 - さまざまな計算問題のためのサブセットや[[機械学習]]のメタアルゴリズム - 構造化されたデータの実験計画やサンプリング - 計算機の進歩 - 階層回帰，トピックモデル，ランダムフォレスト，ディープネットなど - 解釈可能な機械学習 [[XAI]] - 複雑なモデルを理解するための最良の方法はしばしばより単純なモデルで近似するというパラドックス - データとモデルパラメータの変化に対する推論の感応度を計算する - [[ロバスト性]]と正則化のアイデアを多くの異なる統計アルゴリズムで使用されている勾配ベースの計算方法と組み合わせる - 応用 - 3つのトレンド - ビッグデータ - 汚いデータ - 複雑な問題 - より多くのソースからのデータを使用すれば個別化医療，レコメンダーシステム，自動運転など - [[ラストマイル問題]] - 純粋に予測的な推論を行う機械学習のアプローチが統計学の役割に取って代わるか？ - 研究者や意思決定者が不確実性や変動の統計的問題に常に関心を持つ - 統計学の強みは応用とのつながり - 統計学の初期の発展が心理学や遺伝学などの応用分野から生まれた - 計算コスト - ソフトウェア工学の単体テストのようなアイデアをノイズの多いデータからの学習問題に適用