Gunosyデータマイニング研究会#77に行ってきた
Gunosyデータマイニング研究会 #77 - connpass
主催はGunosyのyoshifumi_sekiさん
資料は上のURL先を参照
ずっと社内限定の研究会を実施してきたが、最近は社外に公開している。
隔週で実施。
当日の流れ
基本的に入門書の勉強会と輪講という組合せらしい。
データ解析のための統計データモデリング入門 第6.1~6.5章
メモ
- 二項分布
- 離散・上限あり
- 例)取り出したn個や日本の人口など、上限が明らかなものが対象
- リンク関数
- ガンマ分布:著者によるとinverseではなく、log推奨
- ロジット関数
- オッズ = 生存確率/非生存確率
- 交互作用項
- 二項分布に従う場合
- 割り算して%にしてはいけない。情報が失われる
- 例)3000打席300安打と300打席30安打の打者を同等に評価していいのか
- これは二項分布に限る話ではなく、一般的な話
- ロジスティック回帰
- 0~1まで変化するが、何らかの偏りがあるようなデータに有効
プログラミング言語Juliaの紹介
- データ解析で使える言語。可視化も簡単。Matlabに近い言語
- Go言語並に高速。RやMatlabより数十倍速いケースがある
- ベンチマーク結果はJuliaのHPに記載(The Julia Language)
- スクリプト言語っぽく、書きやすい
- ver0.3。現在、絶賛開発中のため、最新はソースコードをコンパイルして利用
- Rを高速化したい場合に使うのが良い
- Rにある機能をがんばってJuliaに取り込んでいる
iPythonの紹介
輪講
以下の論文が紹介された(今回は変わりダネとのこと)
Seven Rules of Thumbs for Web Site Experiments (SIGKDD 2014)
http://www.exp-platform.com/Documents/2014%20experimentersRulesOfThumb.pdf
Amazonなどの有名ウェブサイトで行われたA/Bテストなどの実験から得られた改善のための7つのルール。ルールごとに事例がまとめられている。
- Small Changes can have a Big Impact to Key Metrics
- Changes Rarely have a Big Positive Impact to Key Metrics
- Your Mileage WILL Vary
- Speed Matters a LOT
- Reducing Abandonment is Hard, Shifting Clicks is Easy
- Avoid Complex Designs: Iterate
- Have Enough Users
関連論文:Controlled experiments on the web – survey and practical guide
http://ai.stanford.edu/~ronnyk/2009controlledExperimentsOnTheWebSurvey.pdf
5つのポイントがある
- データソースは人口データではなく、実データ
- 実験に使うユーザはランダムサンプリングすること
- ユーザのサンプルサイズは少なくとも10万以上
- 主催者の関さんによると1万程度でだいたい見えてくるとのこと
- p値<0.05かそれ以下
- personal experienceに注意
- たまたま対象にしたデータの期間で上手くいっても、別の期間で上手くいくとは限らない。シンプソンのパラドックスに注意
- シンプソンのパラドックス - Wikipedia
コメントメモ
- A/Bテストの事例はブログなどに書かれることがあるが、論文という確かな形で事例がこのようにまとめられたことには価値がある
- あるセグメントで有効な結果が得られたとしても、全体で同様の結果が得られるとは限らない。10%の集団で10%の向上が見られたとしても、100%から見れば1%の向上に過ぎない。本当にビジネスのKPIに貢献するかどうかは慎重に検討するべき
- 実施した施策の効果測定は長期間に渡って、有効であることを測定し続けるのが大事
- サンプルサイズについては書籍「サンプルサイズの決め方」がオススメ
- サンプルサイズが小さいと有効な結果が得られないし、大きいとビジネスに影響が出てしまうので、無制限にユーザ数を増やすわけにはいかないので、適切なサイズにする必要がある
入門書は実践的な内容で勉強になったのと、輪講もwebサイト改善の話で面白かった。