データベース データウェアハウスとOLAP
Categories: MCA Database
1.データウェアハウス
データベースの中には基幹系データベースと情報系データベースとありますがデータウェアハウスとは情報系データベースのことであり、日々の業務の実績や履歴のデータを蓄積する為のデータベースのことです。データウェアハウスのデータは企業が今後とるべき戦略を立てる上での意思決定支援として役立ちます。
(1)データウェアハウスの特徴
データウェアハウスには次の4つの特徴があります。
①サブジェクト指向
サブジェクト指向とは[主観]を意味しており、データウェアハウスにはシステムが自分の主観からみて必要と思える情報をえることができるであることが要求されています。単に売上データに関してもそのデータが今後の経営意思決定に活かす情報をかえすのがサブジェクト指向であり、その情報を蓄積したデータベースをデータウェアハウスと呼んでいます。データウェアハウスはユーザーの知りたいというニーズにこたえるものでなければなりません。
②統合性
本来、企業の部門ごとにわかれているシステムごとに分散して蓄積、保存されているデータを全てまとめて一つのものとして扱えます。この場合データの項目、データの型に一貫性を持たせることが必要となります。
③系列性
時系列性とはあるデータのさまざまな時点での状態を記録できるということを意味しています。
④揮発性
不揮発性とは日常的には更新処理が行われないが、定期的に一括して行われています。データウェアハウスのデータは日常的にはデータの検索や分析だけに使用されています。
2.データウェアハウジングの構成
データウェアハウスにはそのデータを分析するためのシステムが必要であり、データウェアハウスとその分析システムをあわせてデータウェアハウジングと呼ばれています。SQLサーバーを使用した場合には次のような要素から構成されています。
①DTS(Data Transformation Services:データ変換サービス)
DTSは通常のデータベースのデータ(OLTPデータソース)をデータウェアハウスに使用できるものに変換し、DW(データウェアハウス)ストレージに転送します。
②データウェアハウス(DW)ストレージ
DWストレージはデータウェアハウスのデータ格納先であり、DWストレージに格納されたデータはAnlysis Servicesによる分析に利用されます。
③Analysis Services
Analysis Servicesはマイクロソフトが提供しているサーバーソフトウェアでデータウェアハウスのデータ分析を行うのに使用されるています。これはOLAP、データマイニングといった分析処理のための機能を備えており、これはクライアントアプリケーションがAnalysis Servicesを利用してOLAP処理(On-line-analytical processing)を行うのに必要なデータ(キューブ)を作成する機能を持っています。
④クライアントアプリケーション
クライアントアプリケーションはAnalysis Servicesのサービスを利用してOLAPの処理を行いデータを分析するためのアプリケーションです。クライアントアプリケーションとしてはExcelが使用されています。
クライアントアプリケーションからキューブへのアクセスにはOLE DB for OLAP、ADO MDといったAPIが使用されています。
3.OLAP(ON-Line Analytical Processing)
OLAPとはON-Line Analytival Processingの略称であり、企業が日常の業務によって蓄積された販売データや顧客データなどをさまざまな角度から分析することです。Analysis ServicesはOLAPツールの一つです。それに対して基幹系データベースの日常業務で使用される処理をOLTP(On-line-transaction processing)と呼んでいます。
OLAPでは売上が月毎、地域毎、製品毎にどのように異なっているか、商品Aと商品Bの相関関係、天候によって売れる商品に違いがあるかなどが調べられます。
(1)キューブ
OLAPでは次元の多い多次元モデルと呼ばれる構造のデータを使用し、次元が3つになっているデータのことをキューブと呼んでいます。また次元が4つ以上のデータをハイパーキューブと呼んでいます。
キューブは次の3種類の要素から構成されています。
①次元(ディメンション)
次元はデータを分析する切り口を意味し、どのような切り口で分析を行うかにより設定します。
②メンバ
メンバとは次元を構成する項目であり、商品の場合であればその中のカテゴリとなります。
③セル
キューブをグラフ化すると直方体になるがセルはこの直方体を指します。
(2)スライス
スライスとは一つの次元の中から特定のメンバだけを選択することを意味しています。時間、店舗、商品の次元から構成されるキューブがあるとすればそのキューブの時間次元の中から2001年というメンバを選択し2001年におけるすべての店舗のすべての商品の売上データを取り出したものはスライスと呼ぶことができます。
(3)ドリルダウン/ドリルアップ
キューブ次元のメンバはいくつかのカテゴリに分かれるがこのカテゴリをかえて分析の対象を絞り込むことをドリルダウン、分析の対象を広くすることをドリルアップと呼びます。分析対象を絞り込むようにカテゴリを変えた場合はメンバのレベルを下げる、逆に分析の対象を広くするようにカテゴリをかえることをメンバのレベルを上げると呼びます。
4.データマイニング
データマイニングはパターン認識、人工知能などの技術、統計学を利用し自動的にデータの相関関係、傾向、パターンを見つけ出すことを呼びます。Analysis Servicesはデータマイニングの機能としてディシッジョンツリー、クラスタリングの二つが用意されています。
(1)ディシジョンツリー
因果関係を見つけ出すのに役立つ機能であり、分類の結果を図にすると木構造になるためそのように呼ばれています。
(2)クラスタリング
クラスタリングはデータ類似性という観点からグループにまとめる機能です。クラスタリングを利用することで顧客を、商品を購入する見込みが高いか低いかで有望顧客、一般顧客に分けることができます。
5.まとめ
(1)サブジェクト指向
データウェアハウスの特徴の一つで主観の意味を持つ。ユーザーが自分の主観からみて必要と思える情報を得ることができる、ユーザーのニーズに応える特性のこと。
(2)Analysis Services
マイクロソフトが提供するサーバーソフトウェアであり、データウェアハウスのデータ分析を行うのに使用される。
(3)OLAP
企業が日常の業務で蓄積された販売データ、コキャクデータなどを様々な角度から分析すること。
(4)キューブ
OLAPで使用される次元が3つのデータのこと。
(5)ドリルダウン/ドリルアップ
OLAPにおいてキューブの次元メンバのカテゴリをかえ、分析対象を絞りこむことをドリルダウン/分析対象を広げることをドリルアップという。
(6)ディシジョンツリー
データマイニングとしてAnalysis Servicesを使用した場合に因果関係を見つけ出すのに役立つ機能のこと。
(7)クラスタリング
Analysis Servicesの中でデータ類似性という観点からグループにまとめる機能のこと。