2008年11月6日木曜日

プログラマに統計学が必要な理由

最近統計学を押さえる必要性を感じて、完全独習 統計学入門(小島 寛之)を読んだ。

どこに統計学を学ぶ必要性を感じたのかと、その必要性に対してこの本はどうだったかというレビューをまとめたいと思う。


"完全独習 統計学入門" (小島 寛之)

統計学を必要と感じた理由

これは2つある。

ひとつの理由は、Webサービスのためのマーケティングをしたいなら、統計学は必要だよなと、Yahoo!リサーチの価格を調べながら思った。自分の質問に対して、何個の回答があれば十分だと言えるのかわからなかったからだ。で、その場でググっても、表面的なものしかわからず、しかもそれが正しいのか、どういう風に使えばいいのががわからなかった。

後日談で言うなら、"完全独習 統計学入門"を読んでも、この回答数をどうすればいいかはわからなかったので、他の本を読む必要がある。(調査は"完全独習 統計学入門"が対象とする話ではないんだと思う。なにか良さそうな本を知ってる人が居たら教えてください)

もうひとつの理由は、レコメンドシステム(推薦システム)を構築するときや、経営判断を行うときに統計学の知識を使いそうだ、ということがわかったから。

と言っても、「基礎理論からしっかり積み上げてきて、その応用として意志決定のために統計学を使う」って話なら遠回りすぎるので、もっと実践的に「このコードで結果を出すことが出来るんだけど、そのままじゃ式の意味がわからなくて応用できないから、考え方を知る上で基礎理論を勉強しよう」って流れなんだけど。

で、一時期ブログで話題になってたし、Amazonでも高評価だったので、"完全独習 統計学入門"を読んでみたという流れ。

完全独習統計学入門ってどうよ?

この本に書いてあることをまとめてみる。

  • 正規分布なデータであれば、平均と標準偏差が重要。
  • なぜなら、正規分布は計算によって標準正規分布と見なすことができ、標準正規分布の特徴については研究が進んでいるので、少量のデータから色々なことが分かる
  • ある条件下で検定(特定の値はあり得るか)や、それを応用した区間推定(x1~x2に値が収まる確率は何%)を使うと、高確率で未来を予測できる
  • 平均については理解が簡単だとして、あまりなじみのない標準偏差についても、深く知れば生活の上での考え方に幅が出てくる
  • 標準正規分布に対する研究が進んだことによって、現在では数個のサンプルを得るだけで、母体を高確率で推定することが可能

で、どう思ったか?

たしかに、確率や微分積分などの数学の知識は必要なく、読みやすい文章(読むのが早い人なら半日ぐらいか)を読むだけで統計とはなんぞやの考え方部分を理解することが出来たし、正規分布だとわかっているだけの状態から数個のサンプルを得るだけで母体を区間推定する方法など、かなり実践的な知識を得ることが出来た。

まぁ、数学部分をはしょってるので、応用は利かないと思っているけど、何かをするとき統計学のエッセンスを使うことはできると思う。

オススメできるか?

本当に区間推定をするまでの最短経路しか触れていないので、短時間で凄い知識量を得た気になる。そういう意味でオススメ。

でも、実際には骨だけで肉が無いわけで、この本だけで統計を使いこなすのはムリだとも思う。

まぁ、統計学の一番の基礎理論は理解できたので、必要なら実践的な知識を付加することもできるだろうし、レコメンドシステムなどの基礎知識としても使えると思う。

0 件のコメント: