An Overview of Data Warehousing and OLAP Technology

November 6, 2021

データウェアハウスの概要と発表時期の97年の関連技術を解説した論文で、 データウェアハウスの理論を提唱したInmonにならい、データウェアハウスを目的指向(subject-oriented)で、統合され、時刻を横断する組織の意思決定に資する永続的なデータとらえている。 関連技術を、ETL処理、データ保存方法、保存したデータによる分析の3つに分けて整理する。 データベースの設計手法では、Kimballの提唱したスタースキーマ、その応用のスノーフレークスキーマ, 事実の星座(fact constellations)、インデックスについてビットマップインデックスを解説する。

ある事実のデータをほかの事実のデータと比べるとき、比べたい事実のデータは一つであっても比べるデータの選び方は複数ある。同じ地域の売上を月別で比較することもできれば、同月の異なる地域での売上を比較することもできる。 データウェアハウスのデータモデリングでは、この分析の軸が複数あることを多次元とよぶ。 スタースキーマは、事実のデータを格納する一つのテーブルが分析の複数の次元をあつかうテーブルの外部キーをもつ構造であり、中心にある事実のテーブルを周辺の分析のテーブルが参照する様子を星に見立てている。 スタースキーマを以下に例示する。 star

スノーフレークスキーマは、次元のテーブルを正規化によって階層化したもので、雪の結晶にみえることから名がつけられた。 上のスタースキーマをスノーフレークに発展すると次のような図になる。 snowflake 事実の星座は、複数の事実のテーブルが同じ次元のテーブルを参照するものである。

データウェアハウスでは、高速に直和や直積を計算できるビットマップインデックスが使われる。 ビットマップインデックスでは、クエリで指定された値をもつレコードのIDのリストのかわりに、レコード数xカーディナリティのビットマップの行列をつかう。 値のカーディナリティが少ない場合に効果を発揮する。

論文をこちらからダウンロードできます。 画像は論文から引用されています。