最近、スモールデータという言葉を聞くようになった。
いうまでもなく、ビックデータに対するアンチテーゼだ。
ビックデータとスモールデータ、何が違うのだろうか?
結局のところ、自分の理解では、誰が意思決定するか、という話だと思う。
ビックデータの場合の意思決定は、コンピュータ、膨大なデータの中から、人間によってプログラムされたアルゴリズムを基に、パターン(例:ワインの熟成度、ユーザの嗜好(この商品をかったユーザは、この別の商品も買う)、などなど)を発見する。この場合は、データが多ければ多いほど良いので、必然的に人間の出番は少なくなる。
一方、スモールデータの場合、 “小さい”データであるので、判断するのは人間だ。結局のところ、情報理論で重要なのは、S/N(Signal/Noise)比、ノイズばっかりで信号(Signal)が少なければ意味がない。だから、ノイズを減らして、S/N比を上げる、そうすれば、必然的にデータは少なくなり、”スモールデータ”となる。
では、この”ビックデータ”と”スモールデータ”、どちらがよいか?
単純に比較はできないけど、結局のところ、どうパターンを見つけるかという話だと思う。
ビックデータにしろ、スモールデータにしろ、重要なのは、データの中からあるパターンを(この購買履歴のあるユーザに、別の商品を提案すれば売れるなど)見つけることだと思う。そして、ビックデータはコンピュータによるアプローチ、スモールデータはどちらかといえば人間によるアプローチ、どちらが優れているとは一概に言えない。
たしかに、コンピュータの処理能力は上がってきているけど、回帰分析をする場合であれば、どれを説明変数にすればいいなど、結局のところ、やはり、人間の知見が必要だと思う。
コンピュータ頼みもダメだし、かといって、人間頼み一遍でもダメ、コンピュータと人間とのはざまでのバランス、これが大事なんだと思ったのでした。
ちなみに、パターンを見つけるという話は、拙著「ビックデータ戦略」で触れていますので、こちらもご参照ください。