「ビッグデータ」という言葉がしばしば使われるようになりました。
ビッグデータは、データ活用に際し非常に重要になってくる「巨大なデータ」のことですが、そのビッグデータの中に「ダークデータ」と呼ばれるデータが存在するのをご存じでしょうか?
今回は、さらにデータ活用が進むかもしれない、ビッグデータの中でも「ダークデータ」についてご説明いたします。
ダークデータの説明に入るには、ビッグデータを理解しておく必要があるので、まずはビッグデータについてご紹介いたします。
ビッグデータとは、その名の通り「巨大で複雑なデータ」のことです。
ビッグデータにはきっちりとした定義は定められていませんが、「4つのV*」という要素が含まれているものがビッグデータと呼ばれています。
そんなビッグデータですが、ビッグデータの中には「クリーンデータ」「ROTデータ」「ダークデータ」の3つに分類されたデータが存在します。
クリーンデータは「活用しているデータ」のことで、ROTデータは古いデータや重複データといった「不要データ」のことを指します。
*「4つのV」について詳細が気になる方は、こちらの「こんなところで活用されている?ビッグデータについてとその活用例」の記事をご覧ください。
では、ダークデータとはどのようなデータを指すのでしょうか。
ダークデータとは分析などに利用されておらず、価値があるデータかどうかすらも把握されていない「未活用データ」のことで、マシンデータをはじめ、サーバーのログファイル、ソーシャルメディアなどで収集したあらゆるタイプのデータが対象です。
Splunc Inc.は、日本を含む7か国の企業1365人にダークデータに関する調査を行いました。
今回の調査に回答した3分の1の企業で、それぞれが持つデータのうち75%以上がダークデータであると考えていることがわかったそうです。
また、ダークデータが半分以上あると考えている企業の数が、世界平均60%であるのに対し、日本では65%と高い結果となったそうです。
何らかの形で発生したデータを追い切れていないということは、必要なのか不要なのかを判断できないままデータが溜まっていくということなので、これらがダークデータとして蓄積されていくわけです。
ダークデータを発見するための方法としていくつかありますが、今回は3つ紹介いたします。
ダークデータを活用するためには、社内で保管する全データの洗い出しと整理が必要です。
現在、どのようなデータを保管・運用しているのか把握していきましょう。
データを整理しながら、そのダークデータが有益かどうか分類していきます。
ある程度のダークデータなら人の手で整理することができますが、規模が大きければ大きいほど、全データを収集し活用することが困難になってきます。
企業内にあるダークデータを全て洗い出すのは、手間や時間的に不可能だという企業には、ダークデータの整理に特化したコンサルティング企業が存在するので、そういった外部コンサルティングに頼むのも1つの手です。
コンサルティングと聞くとどうしても金額の懸念をされるかと思います。
しかし、ダークデータから必要データを抽出できるようになると、正しいと考えていたことが実はズレていたという発見や、新しい価値の想像につながることもあるので、今後のビジネス拡大に向けての投資となるでしょう。
ダークデータが注目されるようになり、データ分析のためのソリューションを提供する企業も増えてきました。
AIを活用したOCR技術*などを基盤としたAIが、企業が保有するダークデータの中から価値あるデータを導き出し、データを抽出してくれます。
かつて活用されていなかったデータの中にある必要データから、迅速な経営判断につながるでしょう。
*OCRについてはこちらの「どこまで知ってる?AI-OCRについて」をご覧ください。
ダークデータには個人個人の「ログ」も含まれています。
社内でコミュニケーションツールや端末を利用している場合、ログによって社員の生産性を可視化することができます。
社員の生産性が可視化されることで、社員のモチベーションアップや評価に繋げることができます。
ダークデータを活用することで、今まで見えていなかった問題や課題を発見できる可能性があります。
新たに発見した課題を解決するとビジネスが広がるのはもちろん、思わぬところにもビジネス拡大のチャンスが転がっているかもしれません。
ダークデータは、「価値があるかどうかもわからない」「分析すらされていない」データのことだとお伝えいたしました。
もちろんダークデータを収集し整理した結果、有益でない情報がほとんどであったというケースも数多く起こりえます。
しかし未知なデータの分析は、お宝発掘と言っていいほど、ビジネス課題の発見や新たなビジネスチャンスの発見を期待することができるはずです。
みなさんも、現在明確になっているデータだけではなく、隠れている「ダークデータ」にも目を向けてみてはいかがでしょうか?