近年、インターネットやコンピュータの発達で様々なデータが容易に入手できるようになり、データ分析は身近なものとなっているように感じます。
また、データ分析をして営業や経営に役立てようという企業も多いのではないでしょうか。
しかし、その分析は、果たして本当に正しいと自信を持って言えるでしょうか?「分析できたかぶり」に陥ってしまってはいないでしょうか?
実は、使っているデータは正しいはずなのに、事実と異なる結論を出してしまうことがあります。
今回は、データ分析をする前に注意するべきことをご紹介したいと思います。
医者がいるから、病気が流行る?
ある国で、病気が流行っていました。
その病気の原因を調べるため、病気と関係あるデータを分析したところ驚くべきことがわかりました。
なんと病気が特に流行っている地域には、他の地域より医者が多いことが分かったのです。
そのため、この国では、医者の多いところほどこの病気が流行すると結論づけました。
この話は私が大学生の時に統計学の先生から聞いた話です。
この話ではデータ分析を始めるうえで陥りがちな原因と結果の逆転について語られております。
データ分析では、最初に仮説を立てます。
仮説とはこの場合「Aが起きるとBが起きる」という原因と結果を仮決めすることと考えてください。そしてその仮説の裏付けとしてデータ分析を行います。
しかし、データ分析でわかることは多くの場合「AとBの増減にはつながりがある(相関がある)」という事実だけです。
何がここで問題になるかといいますと、この分析だけでは「Bが起きたからAが起きた」なのか「Aが起きたからBが起きた」なのかがわからないということです。
先ほどの例を見てみましょう。
「病人が多い地域」と「医者の多い地域」が重なっていたことが事実だとしても、上の例のような結論には穴があります。
病気の治療や研究のため「病人の多い地域」に来ている医者を見落としています。
また、病人が病院に入院しているため医者の多い地域と患者の多い地域が重なっただけかもしれません。このため、この結論はおそらく正しくないと言えます。
こんなのあたりまえだ!と考える方、次の分析結果はどう思いますか?
金持ちになりたきゃ、本を買え?
とある調査によると、一年間に本を100冊以上買った人の75パーセントは年収が1,000万円以上あることが分かったそうです。
また、年収が300万円未満の世帯の約8割は1年間に購入した本の数が10冊未満だったことから、本をたくさん買う人は高収入になる可能性が高い!と結論づけられました。
あなたはこの結果に賛成しますか?
この調査結果からその結論を導くのは早計と思われます。先ほどの原因と結果の逆転を思い出してください。
今回の場合、「高収入で生活に余裕がある」から「本を100冊以上買える」という結果が出たとも考えられます。
実際、文庫本でも1冊500円でハードカバーなら1冊2,000円以上は当たり前です。文庫本でも100冊買うなら5万円、ハードカバーでしっかりと読もうと思うと、20万円以上を本に費やさなくてはいけません。
所得が少ない場合本を読みたくてそんなにお金を使えないということが多くなってくると考えられます。
このため、上記のような結論を導くためにはさらに調査をする必要があります。
例えば、年収が1,000万円以上の中での本の購入量分布や、所得内における本の購入額の割合も考える必要があるでしょう。さらに、根本的に調査方法が間違っている可能性も検討する必要もあります。
今回、購入した本の数しか載せていませんが、図書館や友人知人からの貸与でも読書はできます。
単純に本の購入数だけが関係しているのか、ほかの方法での読書もカウントしなくてはいけないのかも検討する必要があります。
データ分析を行う前に
まず、分析を行う背景にある、売上アップや生産性向上といった経営レベルの課題を確認しましょう。その経営課題において、どのような数字を知りたいのかを洗い出すと、それが分析の対象データとなります。
その際、1年間で売上高10%アップなどとできるだけ具体的な数値で目的を設定をします。
目的とどのような数字を知りたいのかが明確になると、分析する対象・考慮するべき因果関係が見えてくると思います。
さいごに
ここまで、2つの例と分析を行う前に必要なことをご紹介しました。
今回ご紹介した2つの例のような間違った分析は点在しています。
ではこうした分析ミスを避けるにはどうしたらよいのでしょうか。
まず、立てた仮説が本当に妥当かどうか、分析前に検討する必要があります。
原因と結果を結ぶ理屈は正しいのか、ほかに影響していることはないのか多方面から考える必要があります。
そして、分析するに当たっては、複数の方法で行うことが理想的です。
単純な相関だけではなく、時間ごとの推移や対照となるデータの比較もすることでその分析に説得力が出ます。
データ分析を活かすためには、「データドリブン」が効果的です。
データドリブンはDXを進めるにあたっても特に重要になってきます。
データドリブンについてはこちらの「DXに欠かせない「データドリブン」についてとその活用方法」をご覧ください。
最後に自分が統計学の授業で一番心に残っている言葉で締めます。データ分析は仮説の検証と両輪の関係にあることを述べた言葉です。
分析なき仮説は無意味だが、仮説なき分析は危険である。