データマイニングとデータウェアハウスの主な違いは、データマイニングが膨大な量のデータからパターンを特定するプロセスであるのに対し、データウェアハウスは複数のデータソースからのデータを一カ所に統合するプロセスである点です。
データマイニングは、大規模なデータセットからパターンを発見するプロセスです。
分類や回帰など、さまざまな手法を用いてビジネス上の意思決定を行う。
一方、データウェアハウスは、複数のデータソースからデータを抽出し、変換してデータウェアハウスにロードするプロセスです。
データマイニングの技術は、データウェアハウスに適用して、有用なパターンを発見することができます。
データマイニングとは
データマイニングは、大規模なデータセットからパターンを発見するプロセスです。
言い換えれば、データマイニングは新しいパターン、データエンティティ間の関係を抽出する。
マイニングされるデータは、新しく、正しく、潜在的な利用価値があるものでなければならない。
データから有用な情報を抽出するプロセスには、いくつかの段階があります。
最初のステップは、データの選択です。
データは複数のソースから取得され、複数のフォーマットを持っています。
そこで、すべてのデータを統合し、データウェアハウスと呼ばれる1つの場所に保存する。
第二のステップは、前処理です。
これは、要約、正規化、および集計を含む。
これらの処理は、データをデータマイニングに適した状態にするのに役立つ。
第3のステップは、データマイニングです。
クラスタリング、回帰、分類などの技術やアルゴリズムを使用して、データのパターンを抽出します。
第4段階は、パターン評価です。
得られたアウトプットの正確さをチェックする。
最後に、結果をグラフで表現する。
図1:データマイニング
データマイニングの主な手法は、異常検知、アソシエーションルールマイニング、クラスタリング、分類、回帰です。
まず、異常検知は、データのばらつきを把握するために、通常とは異なるパターンを識別するのに役立つ。
次に、アソシエーションルールマイニングは、変数間の興味深い関連パターンを見つけるのに役立つ。
第三に、クラスタリングは、互いに類似しているデータ内のクラスを識別する。
第四に、分類は、観察が属するクラスを識別する。
最後に、回帰は、変数間の関係を見つけるのに役立ちます。
以上がデータマイニングで使用される主な技術です。
データウェアハウスとは
企業組織では、データは様々なデータベースに入っている。
まず、複数のソースからデータが抽出され、変換される。
そして、データウェアハウスと呼ばれる一元的な場所にデータをロードする。
データウェアハウスは、さまざまなデータソースからデータウェアハウスにデータをロードするプロセスです。
その後、様々な戦略を適用してデータを分析し、エンドユーザーがビジネス上の意思決定を行えるようにサポートします。
さらに、データウェアハウス内のデータは、データマートに分割することができます。
これらのデータマートには、特定のユーザー向けのデータが格納されています。
例えば、人事部門はそのデータマートを使用することができます。
販売部門は販売マートを使うなど。
図2:データウェアハウス
データウェアハウスは、主体指向、統合、時変、不揮発性です。
データウェアハウスは、主体指向です。
現在進行中の業務よりも、ある対象に関する知識を与える。
また、様々なデータソースからのデータを統合するため、統合的です。
ウェアハウスデータは、特定の期間に関する情報を提供します。
だから、それは時間的な変数です。
最後に、データをウェアハウスにロードした後、データを削除または更新してはならないので、不揮発性を提供します。
簡単に言えば、データウェアハウスは、組織の意思決定を行うために有益です。
データマイニングとデータウェアハウスの違い
定義
データマイニングは、機械学習、統計学、データベースシステムの交差点にある方法を含む大規模なデータセットでパターンを発見するプロセスです。
データウェアハウスは、複数のデータソースからデータを抽出、変換し、データウェアハウスと呼ばれる中央ロケーションにロードするプロセスです。
プロセス
データマイニングでは、データは定期的に分析される。
データは定期的にデータウェアハウスに保存される。
データ
データマイニングはデータのサンプルを分析し、データウェアハウスは膨大な量のデータを保存する。
使用方法
データマイニングは、より良い意思決定のためにデータのパターンを発見する。
一方、データウェアハウスは、組織が膨大な量のデータを保存するための仕組みを提供するものです。
結論
データマイニングとデータウェアハウスの違いは、データマイニングが膨大なデータからパターンを特定するプロセスであるのに対し、データウェアハウスは複数のデータソースのデータを一カ所に統合するプロセスであることである。
通常、データウェアハウスはエンジニアが行い、ビジネスユーザーはエンジニアの助けを借りてデータマイニングを行う。