ビッグデータ分析を始める前に必ず押さえてほしい5つの基本

「ビッグデータを分析して何か始めたい」ビッグデータ時代と言われている現代において、このように考える経営者やビジネスマンは少なくないと思います。
しかしいざ分析しようにも「何から始めたらいいのかわからない…」と序盤でつまずく方が多いでしょう。

ビッグデータ分析で大切なのは、いきなり分析を始めることではなくまず基本を押さえることです。

改めてビッグデータとは何かを知り、分析する上で重要なことを理解することで初めてビジネスとして有用な情報を導き出すことができるでしょう。

ここではそんなビッグデータ分析に必要な5つの基本を紹介していきます。

1.ビッグデータの3V

まず、ビッグデータとはどんなデータなのか？を改めて理解するために、現在広く浸透しているビッグデータの定義「3V」について紹介します。

「3V」とは米調査会社ガートナーのアナリストであるダグ・レイニーによって提唱されたもので、「Volume」「Velocity]」「Variety」それぞれの頭文字を取ったものです。

Volume＝データ量

“ビッグデータ”というだけあり、やはり膨大な量のデータ群を対象にするケースが多くなっています。(後述しますが例外もあり)
ちなみにデータの種類に対する明確な定義はなく、むしろどんな種類でもビッグデータになり得ると考えられています。

Velocity＝データ速度

データ速度とはいわゆるデータのI/O(インプット/アウトプット)速度を指し、膨大な量のデータを分析するためには高速なI/Oが重要です。
ここでよく誤解されがちなのが「リアルタイム性も重要」ということですが、時間が経過するほどデータの価値が下がるようなことはありません。

ビッグデータを題材にした「マネーボール」という映画が数年前に放映されましたが、これは大リーグの弱小チームが過去のあらゆるデータ分析により快進撃を続けるというストーリーです。
「映画の中の話」と思われるかもしれませんが、この映画はノンフィクション書籍をもとに制作されています。

このように、データのリアルタイム性は必ずしも重要ではないのです

Variety＝データ範囲

データの量、速度もさることながらデータ範囲も非常に重要です。
しかしここで注意して欲しいのが「データの種類が多ければ多いほどいい」というのではなく、データ範囲をどこまで捉え分析するかが重要です。
つまり分析対象となるデータは数よりもどう選ぶかが分析結果に大きく影響します。

以上がビッグデータの「3V」ですが、最近ではこの3つに「Value(データ価値)」と「Veracity(データ正確性)」が追加された「5V」が提唱され始めています。

2.明確な分析目的を持つこと

では、上記で定義したビッグデータを分析するにあたり大切なこととは何か？

それは第一に“ビッグデータ分析の目的を持つこと”です。

2013年~2014年頃にビッグデータがバズワードとなって以来、「ビッグデータ分析でコスト削減できない？」といった無茶ぶりを投げかけられるエンジニアの方が後を絶ちません。
こういったケースでは往々にしてビッグデータを活用できず失敗に終わっています。

上層部がビッグデータに対する理解が薄いのも原因ですが、最大の原因は“明確な分析目的がないこと”です。
「ビッグデータ分析でコスト削減」や「ビッグデータ分析で顧客獲得数の向上」といったことは確かに実現できます。
しかしそもそもの課題であったり、ビッグデータ分析を用いて何をどう削減するのか(あるいは向上するのか)が見えていません。

コスト削減にしろ顧客獲得数の向上のしろまず先頭に立つのは現状課題であり、それを解決するための手段としてビッグデータ分析が用いられます。
従って、ケースによっては現状課題を解決する手段がビッグデータではないこともあるのです。

このため、なぜビッグデータ分析が必要なのか？現状課題は何か？ビッグデータ分析以外で解決する方法はないのか？を考える必要があります。
つまりビッグデータ分析のスタートは、ビッグデータ分析の否定から始まるという何とも矛盾したプロセスなのです。

3.相関関係ではなく因果関係を探す

ビッグデータ分析において「データとデータの相関関係を見つけろ」とよく耳にしますが、実は重要なのは相関関係よりも因果関係です。

因果関係とは

因果関係とは「原因と結果」が明確になっているものであり、つまり事象の流れが「A→B」のようにしか動かないことを指します。
例えば「大雨が降ったから川が氾濫した」は原因と結果が明確であり、「大雨→川の氾濫」という流れはありますが「川が氾濫したらから大雨が降った」はあり得ません。

相関関係とは

2つの値の間にある関連性のことであり、xの値が増減したことに比例してyの値が増減するもの同士を指します。「x＝y」という中等教育の数学で学んだ公式ですね。
例えば顧客単価が下がったのと同時に全体的な売上げが下がったとしたら、当然「顧客単価の低下が原因では？」と考えます。
しかし、必ずしも顧客単価低下が売上げ低下につながったとは考えられず、何か他の要因が潜んでいるかもしれません。

つまりここで伝えたいことは、「相関関係はときに間違った情報を生むことがあり、因果関係は正確性の高い情報を生む」ということです。
もちろん、データの相関関係を導き出すことがまったくの無意味かと言えばそうではありませんが、まず重要なのは因果関係を見つけることとなります。

4.主なビッグデータ分析手法

ビッグデータ分析の基本を押さえる上で、最低限必要な分析知識をまとめておきます。

クロス集計分析

特定の2つないしは3つのデータにフォーカスして分析を行うデータ分析手法であり、主にアンケート調査などに用いられます。
例としてアンケート項目で得られたデーターを縦軸、アンケート回答者の属性(性別や年齢など)を横軸にすることでグループごとの統計などを取ることが可能です。

ロジスティック回帰分析

将来的な事象の発生率を予測する分析である、分析結果が0~1で表されるのが特徴的です。
医療分野において病気の発生率などを分析する際に用いられます。

アソシエーション分析

一見関連性のないデータとデータの間にある共起性を見つけ出し、有用な情報を引き出すための分析手法です。
ビッグデータ分析として都市伝説化されている「おむつとビールの事例^(※1)」が代表的ですね。

※1：おむつとビールの事例とはとあるスーパー内でおむつとビールが同時購入されているデータに着目したところ、父親がおむつ購入ついでのビールも購入していることが判明し陳列棚を近づけたら売上げが上がったという事例。

クラスター分析

異なるデータを複数のグループにわけることで、データ同士の関係性を明確にすることができる分析手法です。
ブランドポジションの認知や消費者のセグメンテーションなどに用いられています。

決定木分析

「If than：もしも~だったら」で原因から結果を予測していくことで、樹木上の分析モデルが完成するのが特徴です。
多くのビジネスシーンで活用され、ビッグデータ分析の中心でもあります。

5.必ずしも“ビッグ”である必要はない

ビッグデータと聞くと雲を突き抜けるほど高く積み上げられたデータ群を想像しがちですが必ずしも“ビッグ”である必要はなく、むしろ“スモールデータ”が重要なケースもあります。

銘酒「獺祭(だっさい)」を醸造している山口県岩国市の旭酒造では、「杜氏(とうじ)不在」という体制ながらもスモールデータ分析を活用して世界水準の日本酒を年間900本生産しています。

具体例としては、洗米と呼ばれる米を水洗いする工程では、米の重量や洗う時間、または水温などを全てデータとして集計し、米に吸収される水分量を誤差0.2％で調節しています。
蒸し米を広げる台では全面的にセンサーが搭載されており、0.1度単位で温度を計測できるようになっています。
計測員が作業ごとに必要な温度に達した瞬間全員で一斉に作業するという取り組みがされているのです。

これにより旭酒造は杜氏なしでモンド・セレクション最高金賞を受賞するなど。目覚ましい功績を挙げています。
また、入社1年目でも仕込みに参加できるような体制を整えるなど、データ分析によって職人の勘と経験に匹敵するものを生み出しているのです。

こうしたデータは旭酒造の代表である桜井博志社氏が毎日集計し、手書きでグラフ化しています。(現在ではパートが行っている)
このことからも分かるように、旭酒造で分析しているデータは決して“ビッグ”なものではありません。

長い年月が経過すればいずれ“ビッグ”となりますが、日々のデータ自体は非常に“スモール”なものなのです。
従ってこれからビッグデータ分析に臨む方は、言葉の意味自体に囚われないことが大切です。

「場合によってはスモールデータが良いケースもある」という意識を持つことで、小さなデータを見逃さずビッグデータ分析の効果を最大限高めることができるでしょう。

まとめ

ビッグデータ分析は、今回紹介した基本が揃って初めてスタートラインに立ったと言えます。
この後はデータの収集基盤や分析ツールの導入などなど、技術的なことが絡んでくるのでエンジニアの力が必要となりますね。

しかしまず大切なのはデータの収集基盤でも分析ツールでもなく、ビッグデータについて深く理解することや意識的な基本を押さえることです。

また、ビッグデータを分析すれば必ずビジネスに有用な知見を導き出せるわけではありません。
ビッグデータ分析に成功している企業もあれば、失敗している企業もあるということをしっかりと覚えておいてください。

2016年は成熟期に入り今後さらに活用が注目されているビッグデータ分析、皆さんならどのように活用して新たな価値を生み出しますか？