pandazx's blog

データ分析など雑多な技術ブログ

Gunosyデータマイニング研究会#77に行ってきた

Gunosyデータマイニング研究会 #77 - connpass

主催はGunosyのyoshifumi_sekiさん
資料は上のURL先を参照

ずっと社内限定の研究会を実施してきたが、最近は社外に公開している。
隔週で実施。

当日の流れ

  • データ解析のための統計データモデリング入門 第6.1~6.5章
  • 輪講(論文紹介)

基本的に入門書の勉強会と輪講という組合せらしい。

データ解析のための統計データモデリング入門 第6.1~6.5章

メモ

  • 二項分布
    • 離散・上限あり
    • 例)取り出したn個や日本の人口など、上限が明らかなものが対象
  • リンク関数
    • ガンマ分布:著者によるとinverseではなく、log推奨
  • ロジット関数
    • オッズ = 生存確率/非生存確率
  • 交互作用項
    • 論理積で0,1では効果が出ず、1,1で初めて効果が出るようなケースに有効
    • 単純に使うとAICが改善するが、過大評価の危険性がある
    • この問題は7章で解決策が提示される
  • 二項分布に従う場合
    • 割り算して%にしてはいけない。情報が失われる
    • 例)3000打席300安打と300打席30安打の打者を同等に評価していいのか
    • これは二項分布に限る話ではなく、一般的な話
  • ロジスティック回帰
    • 0~1まで変化するが、何らかの偏りがあるようなデータに有効


プログラミング言語Juliaの紹介


iPythonの紹介

  • Pythonを対話的に実行するためのシェル。Pythonよりも型推定を強化している
  • SciPyパッケージの一部として提供されている
  • notebookというWebベースのインタフェースを備えており、使いやすい
  • iPythonからPythonが取れて、汎用的なツールになるプロジェクトが始まりつつあるとか

輪講

以下の論文が紹介された(今回は変わりダネとのこと)
Seven Rules of Thumbs for Web Site Experiments (SIGKDD 2014)
http://www.exp-platform.com/Documents/2014%20experimentersRulesOfThumb.pdf

Amazonなどの有名ウェブサイトで行われたA/Bテストなどの実験から得られた改善のための7つのルール。ルールごとに事例がまとめられている。

  • Small Changes can have a Big Impact to Key Metrics
  • Changes Rarely have a Big Positive Impact to Key Metrics
  • Your Mileage WILL Vary
  • Speed Matters a LOT
  • Reducing Abandonment is Hard, Shifting Clicks is Easy
  • Avoid Complex Designs: Iterate
  • Have Enough Users


関連論文:Controlled experiments on the web – survey and practical guide
http://ai.stanford.edu/~ronnyk/2009controlledExperimentsOnTheWebSurvey.pdf

5つのポイントがある

  • データソースは人口データではなく、実データ
  • 実験に使うユーザはランダムサンプリングすること
  • ユーザのサンプルサイズは少なくとも10万以上
  • 主催者の関さんによると1万程度でだいたい見えてくるとのこと
  • p値<0.05かそれ以下
  • personal experienceに注意

コメントメモ

  • A/Bテストの事例はブログなどに書かれることがあるが、論文という確かな形で事例がこのようにまとめられたことには価値がある
  • あるセグメントで有効な結果が得られたとしても、全体で同様の結果が得られるとは限らない。10%の集団で10%の向上が見られたとしても、100%から見れば1%の向上に過ぎない。本当にビジネスのKPIに貢献するかどうかは慎重に検討するべき
  • 実施した施策の効果測定は長期間に渡って、有効であることを測定し続けるのが大事
  • サンプルサイズについては書籍「サンプルサイズの決め方」がオススメ
  • サンプルサイズが小さいと有効な結果が得られないし、大きいとビジネスに影響が出てしまうので、無制限にユーザ数を増やすわけにはいかないので、適切なサイズにする必要がある


入門書は実践的な内容で勉強になったのと、輪講もwebサイト改善の話で面白かった。

次回はこちら

Gunosyデータマイニング研究会 #78 - connpass