ASTERIA BLOG

EAIの導入に向けた課題解決やビジネスに役立つ情報をブログで発信しています。

2018年1月5日

「分析できたかぶり」に陥らないために。データ活用の見直し方

近年、インターネットやコンピュータの発達で様々なデータが容易に入手しやすくなり、データ分析は身近なものとなっているように感じます。また、データ分析をして営業や経営に役立てようという会社も多いのではないでしょうか。

しかし、その分析は、果たして本当に正しいと自信を持って言えるでしょうか?「分析できたかぶり」に陥ってしまってはいないでしょうか?
実は、使っているデータは正しいはずなのに、事実と異なる結論を出してしまうことがあり得ます。今回は、データ分析をする前に注意するべきことを話したいと思います。

医者がいるから、病気が流行る?

ある国で、病気が流行っていました。その病気の原因を調べるため、病気と関係あるデータを分析したところ驚くべきことがわかりました。なんと病気が特に流行っている地域には、他の地域より医者が多いことが分かったのです。そのため、この国では、医者の多いところほどこの病気が流行すると結論づけました。

この話は私が大学生の時に統計学の先生から聞いた話です。この話ではデータ分析を始めるうえで陥りがちな原因と結果の逆転について語られております。
データ分析では、最初に仮説を立てます。仮説とはこの場合「Aが起きるとBが起きる」という原因と結果を仮決めすることと考えてください。そしてその仮説の裏付けとしてデータ分析を行います。
しかし、データ分析でわかることは多くの場合「AとBの増減にはつながりがある(相関がある)」という事実だけです。何がここで問題になるかといいますと、この分析だけでは「Bが起きたからAが起きた」なのか「Aが起きたからBが起きた」なのかがわからないということです。

先ほどの例を見てみましょう。「病人が多い地域」と「医者の多い地域」が重なっていたことが事実だとしても、上の例のような結論には穴があります。病気の治療や研究のため「病人の多い地域」に来ている医者を見落としております。また、病人が病院に入院しているため医者の多い地域と患者の多い地域が重なっただけかもしれません。このため、この結論はおそらく正しくないと思われます。
こんなのあたりまえだろ!と考える方、次の分析結果はどう思いますか?

金持ちになりたきゃ、本を買え?

とある調査によると、一年間に本を100冊以上買った人の75パーセントは年収が1,000万円以上あることが分かった。また、年収が300万円未満の世帯の約8割は一年間に購入した本の数が10冊未満だった。つまり、本をたくさん買う人は高収入になる可能性が高い!

この数値は架空のものですが、似たような結果はすでに調査で出ているそうです。あなたはこの結果に賛成しますか?
この調査結果からその結論を導くのは早計と思われます。先ほどの原因と結果の逆転を思い出してください。

今回の場合、「高収入でだから生活に余裕がある」から「本を100冊以上買える」という結果があるとも考えられます。実際、文庫本でも1冊500円でハードカバーなら1冊2,000円以上は当たり前です。文庫本でも100冊買うなら5万円、ハードカバーでしっかりと読もうとしたら、20万円以上本に費やさなくてはいけません。所得の少ない人の場合本を読みたくてもそもそもそんなにお金を使えないということが多くなってくると考えられます。
このため、先のような結論を導くためにはさらに調査をしていく必要があります。例えば、年収が1,000万円以上の人の中での本の購入量の分布や、所得内における本の購入額の割合も考える必要があります。これは高所得者層全体の傾向や、彼らの本購入に対する熱意を知ることができるようになると考えられます。

さらに、根本的に調査方法が間違っている可能性も検討する必要があります。今回購入した本の数しか俎上に載せていませんが、図書館や友人知人からの貸与でも読書はできます。単純に本の購入数だけが関係しているのか、ほかの方法での読書もカウントしなくてはいけないのか検討する必要があります。

スタートラインを間違えないために

ここまで、2つの例を見てもらいましたがこうした分析はあちこちにあります。ではこうした分析を避けるにはどうしたらよいのでしょうか。
まず、立てた仮説が本当に妥当か分析前にも検討する必要があります。原因と結果を結ぶ理屈は正しいのか、ほかに影響していることはないのか多方面から考える必要があります。
そして、分析の際も複数の方法で分析することが理想的です。単純な相関だけではなく、時間ごとの推移や対照となるデータの比較もすることでその分析に説得力が出ます。

最後に自分が統計学の授業で一番心に残っている言葉で締めます。データ分析は仮説の検証と両輪の関係にあることを述べた言葉です。

分析なき仮説は無意味だが、仮説なき分析は危険である。

2014年入社
入社して以来、ASTERIAを使った開発に携わってきました。
たるみ始めた体を鍛えなおすために、毎朝現場まで3駅分歩いています。
プロフィール画像を書いてくれた後輩に感謝!

ブログを購読する