ITの進歩の中で、企業では業務で得られた大規模のデータ(ビッグデータ)をハードウェアへ保存し、分析などで有効活用する必要が出てきました。そこで活用されるのがデータウェアハウス、データマート、データレイクという3つの保存タイプです。
しかしこの3者、データを保存して活用するという点では同じため、「データウェアハウスとデータマート、データレイクの違いがいまいち分からない」という方が、企業にも多くいらっしゃいます。この3者は一体どう区別されるのでしょうか。
今回はデータウェアハウスとデータマート、データレイクの特徴を紐解きます。「データウェアハウス、データマート、データレイクの違いがサーバー担当にも関わらずいまいち分かっていない」という方はぜひご覧ください。
目次
データウェアハウスとは
まずはデータウェアハウスです。データウェアハウスとは「データの倉庫」という意味があり、業務で必要なデータを指定した形式で一括保存。すぐに分析ができるようにデータベース化します。
例えばネットショッピングで買い物をした自社顧客の情報を一括保存。「どんな商品がどれだけ売れたか」をデータウェアハウス上ですぐ処理して調べられます。
業務に関するデータが全て保存されているため、分析者はデータウェアハウスにアクセスすれば欲しい情報をすぐ入手して分析にかけられます。データウェアハウスはビッグデータ到来前から企業のデータを保存する形式として利用されており、主流でした。
データマートとは
データウェアハウスは確かに企業内のデータがきれいにまとめられていて便利ですが、例えば営業課では「営業課のデータだけが必要なので、営業課のデータだけをまとめておきたい」という願望もあります。このような願望を実現するのがデータマートです。
データマートとは、業務に関するデータが社内部門ごとにまとめられたデータベースサーバーです。要するにデータウェアハウスのデータを部門ごとに切り分けて保存しているので、各部門の担当者は必要なデータをすぐ抜き出せます。データウェアハウスではアクセスして自部門に関するデータを検索する手間などがかかりますが、データマートにアクセスすれば自部門のデータをすぐに確認できます。
しかしデータウェアハウスのデータを細分化するので、社内部門が多くなるほど複数のデータマートを構築しなければならないなど、デメリットもあります。
データレイクとは
データレイクは、ビッグデータを保存する形式として注目を集めているサーバータイプです。
ビッグデータには単なるテキストタイプだけでなく、画像や動画、そしてSNSなど、形式が違うデータがたくさん含まれています。これをデータウェアハウスで管理するとなると、それぞれの形式ごとにデータ加工(クレンジングなど)を行い、データベースする手間と時間がかかります。
データレイクでは異なる形式のデータに「タグ」と呼ばれるキーワードのようなものを追加し、同じ場所に保存します。これによりデータレイク利用者は「テキストデータとSNSデータをいっしょに並べて比較・分析を行いたい」といったときに必要なデータを取り出して、多角的な分析を行えます。いろいろな形式のデータをまとめて分析したいときなどに、データレイクは適しています。
ただしデータレイクは何でもかんでもデータを保存すると「データスワンプ」という状態になり、データを取り出しにくくなるなど業務の足かせになることもあるので、注意が必要です。
まとめ
今回はデータウェアハウス、データマートとデータレイクの特徴をご紹介しました。特徴をざっとまとめると、
・データウェアハウス・・・業務データが全て形式化されまとまっており、すぐ分析できる
・データマート・・・業務データが各部門ごとに分けられて保存されており、部門ごとのデータ分析が簡単
・データレイク・・・あらゆる形式のデータを一括保存、状況に応じて柔軟な分析が可能
といったところでしょうか。どの形式にもメリット・デメリットがあり、企業内では併用して利用しているところも多いです。皆さんもこの機会に社内データの扱いをサーバーレベルで再確認してみませんか?
おすすめ関連記事:業務効率化のためにRPAの特性を理解しよう
おすすめ関連記事:ERPの概要と特徴! 基幹システムとの違いも分かります
おすすめ関連記事:データ分析を効率化! BIツールの仕組みとは