以前、ビックデータ時代だからこそスモールデータの手法の理解も大事というエントリを投稿しました。
で、自分はあまりテレビを見ないのですが、たまたまCNNによる世論調査で1000名を対象に米国時期大統領トランプ氏を支持するかしないかについて、世論調査したところ以前オバマ氏が81%のところ40%で支持率が低いという報道でした。
あらかじめ言うと、自分はこの結果に、とく賛成・反対はありません。むしろ、純粋にデータサイエンス的にこれが有意かどうか純粋に興味があります。
一番、確実なアプローチは、米国民3.189億人に賛成か反対かを問うこと。いわゆる、ビックデータのアプローチ。ただ、これが本当にできるかといえば意外と難しい気がする。11月の大統領選挙でも、多くのメディアがヒラリー氏優先と伝えたものの、蓋を開けたら違う結果になったように、”ビックデータ”で解決できる話でないと思う。
となると、やっぱり、母集団からサンプリングして、そのサンプルから母集団を推定するというアプローチが妥当で、統計の世界では、サンプルの許容誤差という考え方があります。一般的には誤差5%つまり100のうち95が正しくて5が誤ると想定すると、許容誤差のサンプル数は(正規分布の5%信頼水準 1.96)^2 x (支持率 0.5x非支持率 0.5)/(標本誤差 0.05)^2 = 384、つまり、384人にアンケートを取れば、理論上、許容誤差に収まる、なので、1000人は許容誤差の範囲といえるかもしれない。
ただ、この5%の許容誤差を1%にすると、(正規分布の5%信頼水準 2.58)^2 x (支持率 0.5x非支持率 0.5)/(標本誤差 0.01)^2 = 16,641人、384人くらべて43倍のサンプル数が必要になる。
というわけで、ここから何がいえるか?この許容誤差の5%というのは、完全無作為に抽出する前提であれば成立するかもしれない。ただ、ただでさえ、CNNはトランプ氏から”うそのメディア”というレッテルを貼れて、質疑を拒否されたほど対立関係にあるので、もしかしたら、何かしらのバイアスがかかって”完全無作為”とはなっていないかもしれない。
というわけで、この精度をあげるには、1.CNNとは独立な機関によってサンプル抽出する、もしくは、2.許容誤差を5%から下げる、ともう少し尤もらしくなると思うのでした。