企業で扱われるデータは大きく分けると、SCMやERP、CRMなどの業務ソフトウェアのデータベースで利用される「構造化データ」と、従業員の日常業務で生成される契約書、注文書、見積書などのワード、PDF、エクセルや、設計図面、画像、動画などの「非構造化データ」に分けられます。
近年のデジタルトランスフォーメーションやグローバルビジネスの拡大に伴い、企業が扱うデータの数が急激に増加していますが、なんとそのデータのうち「約8割」が非構造化データといわれています。
このようなデータの増加に伴い、構造化データ、非構造化データを含めたデータの一元管理と有効活用が課題になっている企業が増えています。一体企業でどのような課題が発生しているのでしょうか。
目次
構造化データとは何か?
「構造化データ」とは簡単にいうと、ExcelやCSVファイルなどで表現される、「列」と「行」の概念をもつデータを指します。あるデータに対して「列」で意味を持たせ「構造化」し格納したものであるといえるでしょう。
業務のIT化が進み、これまでのマニュアルでの業務処理ではとうていビジネスの拡大に追いついていけず、SCMやERP、CRMなどの業務を支援する便利なソフトウェアが誕生しました。これらのソフトウェアはよりデータを効率よく管理するためにRDB(リレーショナル・データベース)と呼ばれるデータベースの情報を活用しています。まさに、このようなRDBに格納されるデータのことを「構造化データ」と呼ぶようになったとされています。
構造化データは、「どこにどのようなデータがあるか」が「列」と「行」によって決められているため、データの検索、集計や比較などが行いやすく、データの解析や分析に最も適したデータ構造です。
業務支援ソフトウェアの高機能化、BIやアナリティクス市場の活性化により、構造化データの分析や活用は現在ではあたりまえのように進んでいます。
非構造化データとは何か?企業のデータの多くを占める理由とは?
「非構造化データ」とは、電子メール、提案書や企画書、見積書や発注書、契約書、デザインデータ、CADデータなど、従業員の日常業務で生成されるメール文書、プレゼンテーションやワード・エクセル、画像、動画などのデータ(ファイル)のことを指します。データ単体で意味を持ち、それぞれで業務用途が異なるためデータベースでは扱うことが難しいデータであるといえるでしょう。
昨今では、構造化データと非構造化データを総称して「ビッグデータ」とも呼ばれていますが、実は、前述のとおり企業で扱われているデータの大部分を占めるのが「非構造化データ」なのです。
非構造化データが多くなった背景には、電子メールを活用したコミュニケーション基盤の浸透、マイクロソフト社のOffice製品やアドビ社のグラフィックソフトウェア製品の幅広い普及など、さらなる業務のIT化にともない、人や企業とのコミュニケーションをより表現するデータ活用が業務に組み込まれてきたことが考えられます。
また、e-文書法や電子帳簿保存法などの法規制の整備により、従来の紙の書類が電子データとして業務に有効活用されるようになったことも大きな要因ではないでしょうか。
ユーザーから求められる製品やサービスを提供するためには、業務をITで効率化し、いかに幅広いデータを扱えるかが重要になるため、今後もより企業内で非構造化データの占める割合が高くなると予想されます。
図)企業内ビッグデータ?構造化データと非構造化データの8割2割の法則
非構造化データの管理における企業の課題とは?
デジタルトランスフォーメーションやグローバルビジネスの拡大により、企業が保有する構造化データと非構造化データの量が膨大になっています。データは無制限に増加させることができるため、収集し続ける限りデータの蓄積は可能です。しかし、無制限にデータを増やすことができる点は一概にもメリットとは言えないのです。
データの蓄積量が多ければ多いほど業務でのIT活用や顧客満足度の向上に繋がる反面、非構造化データの管理や活用に伴う業務の効率化、セキュリティ対策に大きな負担が強いられることになるでしょう。
課題 ①:データの保管や運用管理
非構造化データは構造化データと異なり、データの容量が大きく、データ単体で用途が異なります。
収集したデータや生成されたデータは、保管しておくために大規模なストレージが必要になり、データの増加とともにストレージを拡張しなければならなくなります。つまり、ストレージ管理にかかるコストが増加してしまうということです。新たなデータが増えるということは、そのたびにソフトウェアやハードウェアを更新しなければならないため、ITインフラの管理に大きな負荷がかかってしまうでしょう。
また、非構造化データをどのように分類して保管するか?という運用ポリシー面でも社内でのルールの策定から従業員への教育、監視まで大きな負荷がかかってしまいがちです。
課題 ②:データの検索や更新
非構造化データは構造化データと異なり、データベースで扱うことが難しいデータ(ファイル)です。あたりまえですが、ファイルの数が増えれば増えるほど、ファイルの「検索」や「更新」の手間がかかります。
例えば、営業活動で利用する提案書や企画書はどこにあるのか?どのファイルが最新なのか?データが膨大になればなるほど、ファイルを探すことに時間をとられ、業務上無駄なコストを生んでしまうでしょう。
また、どのファイルのどの部分を、誰が更新したのか?データベース管理とは異なり詳細な監査ログが残らないため、ファイルの更新手順を作る・教育するなど、こちらも業務上無駄なコストを生んでしまいがちです。
課題 ③:データのセキュリティ対策
非構造データは構造化データと異なり、従業員が誰でも自由にファイルを作成し・保存し・編集することができます。このようなデータが増えれば増えるほどセキュリティ対策が不十分になりがちです。
非構造化データには、「機密情報」や顧客の「個人情報」が含まれているケースも多く、セキュリティ対策は細心の注意を払わなければならないです。従業員のセキュリティへの意識が低かったり人手不足でセキュリティ技術者を確保できていなかったりすると、データの改ざん、機密情報や個人情報の漏えいなどセキュリティ事故が発生するリスクが高くなるでしょう。
また、昨今ではスマートフォンやタブレットの業務利用などBYODが進んでいるため、社内のPCだけではなく、あらゆる場面での事故のリスクを考慮する必要があります。
非構造化データの管理や活用における課題に未だ気づいていない企業は多く見受けられます。一番の課題は、経営者や情報システム部門の担当役員が、大量の非構造化データを保有することに対して危機感を感じていないということかもしれません。
ビッグデータの一元管理とデータの有効活用を目指して
これまで、SCMやERP、CRMの刷新など、比較的、構造化データを主軸としたITプロジェクトが主流でした。一方で、社内を見渡すと非構造化データが膨大に増えており、非構造化データの保管・管理コストの増加、業務の非効率化、セキュリティ対策が企業の重要課題として浮き彫りになってきています。
そのため、企業はこれまでの構造化データの管理と並行して、非構造化データの管理や活用が企業の「情報ガバナンス」にも大きく関係するため積極的にアプローチすることが求められるようになるでしょう。