📖Mathematics for Machine Learning - yuuk1's Digital Garden

[Rebuild: 315: Our Bank Doesn't Like Your Voice Service (higepon)](https://rebuild.fm/315/) より。 - 書籍サイト [Mathematics for Machine Learning | Companion webpage to the book “Mathematics for Machine Learning”. Copyright 2020 by Marc Peter Deisenroth, A. Aldo Faisal, and Cheng Soon Ong. Published by Cambridge University Press.](https://mml-book.github.io/) ## 目次 Part I: Mathematical Foundations 1. Introduction and Motivation - [[Machine Learning Algorithm]] - [[The 3 main components of a ML system]] - データをベクトルとして表現する。 - 適切なモデルを確率論的または最適化の観点から選択する。 - 学習に使われなかったデータでもモデルがうまく機能することを目指して、数値最適化手法を用いて、利用可能なデータから学習する。 - [[4 pillars of Machine Learning]] 2. Linear Algebra 3. Analytic Geometry 4. Matrix Decompositions 5. Vector Calculus 6. Probability and Distribution 7. Continuous Optimization Part II: Central Machine Learning Problems 8. When Models Meet Data 9. Linear Regression 10. Dimensionality Reduction with Principal Component Analysis 11. Density Estimation with Gaussian Mixture Models 12. Classification with Support Vector Machines ## Preface > This book is intended to be a guidebook to the vast mathematical lit- erature that forms the foundations of modern machine learning. 膨大な文献のガイドライン > We motivate the need for mathematical concepts by directly pointing out their usefulness in the context of fundamental machine learning problems. > The book assumes the reader to have mathematical knowledge commonly covered in high school mathematics and physics. 高校数学・物理の知識がある読者 - Astute Listener - Experienced Artist - Fledgling Composer ## 章構成本書で扱う機械学習の4つの柱（図1.1参照）には、第1部で説明したように、しっかりとした数学的基礎が必要です。数値データをベクトルで表現し、そのデータの表を行列で表現します。ベクトルと行列を扱う学問を「線形代数」といい、第2章で紹介します。ベクトルの集合体を行列として表現する方法も、この章で紹介しています。現実世界の2つの物体を表す2つのベクトルが与えられたとき、その類似性についての記述をしたいと思います。類似しているベクトルは，機械学習アルゴリズム（予測器）によって類似した出力を持つことが予測されるはずだという考え方です．ベクトル間の類似性の考え方を公式化するためには，2つのベクトルを入力として受け取り，それらの類似性を表す数値を返す演算を導入する必要があります．類似性と距離の概念は解析的幾何学の中心であり、第3章で説明します。第4章では、行列と行列分解に関する基本的な概念を紹介します。行列の操作は、機械学習において非常に有用であり、データを直感的に解釈し、より効率的な学習を可能にします。私たちはしばしば、データを「真の信号に対するノイズの観測値」と考えます。機械学習を適用することで、ノイズから信号を識別できるようになることを期待しています。そのためには、「ノイズ」の意味を定量化するための言語が必要になります。また、ある種の不確実性を表現できる予測器があれば、特定のテストデータポイントでの予測値に対する確信度を定量化することができます。不確実性の定量化は、確率論の領域であり、第6章で説明します。機械学習モデルを学習する際には，何らかの性能指標を最大化するパラメータを見つけるのが一般的です．多くの最適化手法では、解を求める方向を示す「勾配」の概念が必要となります。第5章ではベクトル微積分を取り上げ、勾配の概念を詳しく説明しています。第7章では、関数の最大値・最小値を求める最適化について説明します。本書の第2部では、図1.1に示すように、機械学習の4つの柱を紹介しています。第1部で紹介した数学的な概念が、それぞれの柱の基礎になっていることを説明しています。大まかに言うと、章は難易度の高い順（昇順）に並んでいます。第8章では、機械学習を構成する3つの要素（データ、モデル、パラメータ推定）を数学的に説明しています。さらに、機械学習システムを楽観的に評価しすぎないように、実験セットアップを構築するためのガイドラインを示しています。目標は、見たことのないデータで良好な性能を発揮する予測器を構築することであることを思い出してください。第9章では、[[notes/machine-learning/線形回帰]]について詳しく見ていきます。ここでの目的は、入力x∈RDを、それぞれの入力のラベルとして解釈できる、対応する目的の関数値y∈Rにマッピングする関数を見つけることです。[[最尤推定]]と[[最大事後推定]]による古典的なモデルフィッティング（パラメータの推定）と、パラメータを最適化するのではなく統合する[[ベイジアン線形回帰]]について説明します。第10章では、図1.1の2番目の柱である[[主成分分析]]を用いた[[次元削減]]に焦点を当てています。次元削減の主な目的は、高次元データx∈RDのコンパクトな低次元表現を見つけることであり、これはしばしば元のデータよりも分析が容易である。回帰とは異なり、次元削減はデータのモデル化にのみ関心があり、データポイントxに関連するラベルはありません。第11章では、第3の柱である[[密度推定]]に移ります。密度推定の目的は，与えられたデータセットを記述する確率分布を見つけることです．この目的のために，[[混合ガウスモデル]]に焦点を当て，このモデルのパラメータを見つけるための反復法について説明します．次元削減の場合と同様に、データポイントx∈RDにはラベルが付いていない。しかし、我々はデータの低次元表現を求めているわけではない。むしろ、データを記述する密度モデルに興味があるのです。第12章では、第4の柱である「[[分類]]」について詳しく説明し、本書を締めくくります。分類については、[[サポートベクターマシン]]の文脈で説明します。回帰（第9章）と同様に、入力xとそれに対応するラベルyがあります。しかし、ラベルが実数値であった回帰とは異なり、分類のラベルは整数であるため、特別な注意が必要です。