データレイクはビッグデータ時代の救世主？データウェアハウスとの違いとは

デジタルトランスフォーメーションやグローバル化の促進によって、従来型のデータベースでは管理しにくい「非構造化データ」が企業に大量に集まる状況が出現しています。

こうした非構造化データを有効活用するための仕組みとして、各方面から高い関心を集めているのが「データレイク（Data Lake）」です。

本記事では、「データレイクとはどんなものか」、「データウェアハウスとどう違うのか」、「どのようなソリューションが有効なのか」について、わかりやすく解説します。

1 データレイクとは何か？
2 データウェアハウスとの違いとは？
3 データレイクを支えるECMの活用も視野に
4 ビッグデータ時代を乗り切るためにECMの導入がキーになるかも？！

データレイクとは何か？

ビッグデータ時代を迎え、いまやデータ分析やデータ活用は企業経営にとって避けて通れないものになりました。主に業務システムが管理運営する「構造化データ」に加え、ウェブサイトやモバイルアプリケーションのログやクリックストリーム、IoT関連データやオープンデータ、動画やグラフィックなどといったさまざまな「非構造化データ」が企業に集まってきています。
※「構造化データ」と「非構造化データ」に関する詳しい内容は、こちらの記事も参照ください。

一方で、こうした大量のデータのなかから経営の意思決定に役立つものをどのように見極めれば良いのかという課題も浮上しています。その解決策の1つとして注目されているのが、「データレイク」なのです。

データレイクは多様なデータを「構造化データ」「非構造化データ」にかかわらず、そのままの形で貯蓄する仕組みです。それぞれのデータを魚に見立て、データの湖にそのまま入れることをイメージするとわかりやすいのではないでしょうか。

データレイクでは、すべてのデータを物理的な巨大ストレージで一元管理する必要はありません。分散処理と相性が良く、だれがいつどこにデータを発生させたのかを「データカタログ」によって管理します。ユーザーは使い慣れたポータルでデータカタログを利用しながら、必要なデータを自由に取り出して利用できるのです。分散管理とセルフサービス方式によって、IT部門にかかる負担を大幅に削減できるでしょう。

データレイクは大きく3つの要素で構成されます。「データ供給」と「データガバナンス」、および「データ処理」です。

データ供給では、データレイクに取り込むデータをいつ、誰が、どのように保存したのかを、はっきりとさせていなくてはなりません。そのデータについて、発生した時点から、データの更新や、データが取り出されるまで、いつ、誰が、何をしたのかしっかり管理するのがデータガバナンスであり、このプロセスにデータカタログは不可欠です。

さらに、データ処理では、ユーザー自身がセルフサービス方式でデータ分析やデータ活用を行います。データレイクが提供するユーザー専用の分析スペースをサンドボックス（砂場）と呼ぶことがあります。

データレイクの構築にあたっては、まずは企業に関係するすべてのデータを貯蓄していく流れになるでしょう。データの品質を高めるクレンジングなどの作業が不必要になるわけではありませんが、まずは貯蓄することを優先します。そのため、信頼性の低いデータや古いデータなどが多く紛れ込むと、必要なタイミングで適切な情報を取り出すのが難しくなりがちです。

このような状態をデータスワンプ（データの沼）といいます。湖の透明度が下がって泥のようになり、魚を見つけるのが困難になってしまうのです。

データスワンプを防ぐうえで、データカタログとそれを生成するカタログエンジンの良し悪しがポイントになってくるでしょう。

データウェアハウスとの違いとは？

データウェアハウス（Data Ware House/DWH）とは、簡単に言うとデータの「倉庫」です。主に過去の情報を時系列に保管するものであり、設計に従って構造化されたデータを格納するデータベースを意味します。すなわち、データウェアハウスに蓄積されるのは、データレイクと異なり、構造化データが中心となるでしょう。

データベースにSQLやクエリで検索をかけたときに必要なデータをすみやかに取り出せるように最適化されているため、大量のデータを集計したり分析したりするのに最も適しています。一方、通常のデータベース（DB）は現在進行形でひんぱんに使うデータを格納するものと考えて良いでしょう。

企業に集まるデータが増えてくると、データウェアハウスの運用に限界が生じる可能性が高まります。担当するIT部門に負荷が集中しやすく、時間とコストがかかりやすくなるからです。

データレイクならデータをあらかじめ構造化する必要はなく、これにかかるコストや手間を削減できます。なぜなら、個々のユーザーがデータオーナーになり、それぞれが自由にデータを利用できるからです。経営者自身が社内に蓄積されたすべてのデータを活用して意思決定に役立てることも可能でしょう。

データレイクを支えるECMの活用も視野に

ビッグデータの活用が企業にとって喫緊の課題だと認識しながらも、無造作に非構造化データが蓄積され、さらに紙ベースの業務から脱却できない企業は決して少なくありません。データレイクを支えるソリューションとして、こうした企業に有用なのがコンテンツや文書管理を意味するECM（Enterprise Content Management）の導入です。

ECMとは企業が保有するデジタルコンテンツを統合的に管理するシステムです。ポイントは管理の対象がコンテンツだという点にあります。これには、電子文書だけでなくウェブサイトやアプリから得られる音声や画像、ログなどといった多様な非構造化データも含まれます。企業に集まる大量のコンテンツを業務プロセスと連動し、セキュアに管理・運用して有効活用するためのソリューションがECMなのです。

ECMは、信頼性の低いデータや古いデータなどを自動でアーカイブや廃棄する機能も備えられているため、データレイクでいうところのデータスワンプの状態を回避することも可能です。

ECMによって社内の情報を一元管理し、業務プロセスと関連して活用することで、情報ガバナンスやセキュリティ対策、コンプライアンス強化の効果が期待できます。情報共有が進み、業務の効率化や売上増加にもつながりやすくなるでしょう。

また、紙文書での運用が残っているなら、まずはそれを電子文書化する検討も必要になるでしょう。この検討は、電子帳簿保存法やe-文書法といった法律に則って実施しなくてはなりません。
※電子帳簿保存法やe-文書法についての詳しい内容は、こちらの記事も参照ください。

関連法の内容とシステム構築の両方について知識が求められることがECMの導入を検討している経営者やIT担当者の心理的な障害になりがちです。
しかし、データレイクなどのソリューションを活用したデータの分析や活用は、今や企業の死活問題になりかねないほど重要性が増しているため、早急な対応が求められるでしょう。