# 機械学習システムのワークフロー Created: October 11, 2020 11:55 AM ![[%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%E3%82%B7%E3%82%B9%E3%83%86%E3%83%A0%E3%81%AE%E3%83%AF%E3%83%BC%E3%82%AF%E3%83%95%E3%83%AD%E3%83%BC/ScreenShot_2020-10-11_at_11.56.19_AM.png]] [[📖Python機械学習プログラミング 達人データサイエンティストによる理論と実践]] p.12 ## 前処理 > 生のデータが機械学習 アルゴリズムの性能を最適化するのに必要な形式で提供されることは滅多にない。機械学習を適用 する際、常にデータの前処理(preprocessing)が最も重要な手順の 1 つとなるのは、そのためである。 > 多くの機械学習アルゴリズムでは、最適な性能を得るために、選択された特徴量の尺度 ※28 が同じであることも要求される。多くの場合、これは特徴量を[0, 1]の範囲に変換するか、平均が0で分散が1の標準正規分布に変換することによって実現される。 > 抽出された特徴量によっては、相関が高いために一定の重複が認められるかもしれない。そのよ うな場合は、特徴量を低次元の部分空間に圧縮するのに[[次元削減]]の手法が役立つ。特徴空間の次元を減らせば、必要となる記憶域が少なくなり、機械学習アルゴリズムの処理を大幅に高速化できる。 [[📖Python機械学習プログラミング 達人データサイエンティストによる理論と実践]] p.12 ### 予測モデルのトレーニングと選択 [[ハイパーパラメータ最適化]] ### モデルの評価と未知のインスタンスの予測