[Data mining - Wikipedia](https://en.wikipedia.org/wiki/Data_mining)
データマイニングは、[[機械学習]]、[[統計学]]、データベースシステムの交差点にある方法を含む大規模なデータセットからパターンを抽出し発見するプロセスである[1]。データマイニングは、データセットから(知的方法で)情報を抽出し、さらに使用するために情報を理解しやすい構造に変換するという全体目標を持つコンピュータ科学と統計学の学際的サブフィールドである。 データマイニングは「データベースにおける知識発見」プロセス、すなわちKDDの分析ステップである[5]。生の分析ステップとは別に、データベースとデータ管理の側面、データの前処理、モデルと推論の検討、面白さの指標、複雑さの検討、発見した構造の後処理、可視化、オンライン更新も含む。
1. "Data Mining Curriculum". ACM SIGKDD. 2006-04-30. Retrieved 2014-01-27. [Curriculum Design : Introduction](http://www.kdd.org/curriculum/index.html)
データマイニングという言葉は誤用であり、目的は大量のデータからパターンや知識を抽出することであって、データそのものを抽出(マイニング)することではない。 また、バズワード[7]でもあり、大規模データや情報処理(収集、抽出、ウェアハウス、分析、統計)、さらには人工知能(機械学習など)やビジネスインテリジェンスを含むコンピュータ意思決定支援システムのあらゆる応用に頻繁に適用されている。書籍「データマイニング」。Practical machine learning tools and techniques with Java[8](主に機械学習の内容を扱っている)は、当初はPractical machine learningという名称であり、データマイニングという用語はマーケティング上の理由から付けられたに過ぎない[9]。多くの場合、(大規模)データ解析や分析、実際の手法を指す場合は人工知能や機械学習という一般用語がより適切であろう。
実際のデータマイニングは、大量のデータを半自動または自動で解析し、データレコードのグループ(クラスター分析)、異常なレコード(異常検知)、依存関係(関連ルールマイニング、逐次パターンマイニング)など、これまで知られていなかった興味深いパターンを抽出する作業である。これには通常、空間インデックスなどのデータベース技術が使われる。これらのパターンは、入力データの一種の要約とみなすことができ、さらなる分析や、例えば、機械学習や予測分析に使用することができる。例えば、データマイニングのステップでは、データ中の複数のグループを特定し、これを用いて、意思決定支援システムでより正確な予測結果を得ることができるかもしれない。データ収集、データ準備、結果の解釈と報告のいずれもデータマイニングのステップには含まれず、追加のステップとしてKDDプロセス全体に属します。
データ分析とデータマイニングの違いは、データ分析は、データ量に関係なく、マーケティングキャンペーンの効果を分析するなど、データセットに対するモデルや仮説を検証するために用いられる。これに対してデータマイニングは、機械学習や統計モデルを用いて、大量のデータから秘密のパターンや隠されたパターンを発見するために用いられる[10]。