サイバーエージェントの機械学習祭りに行ってきた
に行ってきた。以下はメモ。
推薦アルゴリズムの今までとこれから
スピーカー:サイバーエージェント 内藤 遥
推薦アルゴリズムの種類
- 協調フィルタリング
- データがないと機能しない
- コンテンツベース
- データがなくても大丈夫。商品の特徴量を使う
GroupLens
- 古典的なユーザベースの協調フィルタリング
- アイテムベースの協調フィルタリング
- Amazonが使っている
- Abemaでも使っている
- ハイパーパラメータがなく、使いやすい
- 共起のないデータの計算は省略できる
Matrix Factorization
Factorization Machines
- MFの改善手法
- ただ、MFより予測の計算量が多い。TopNの算出に時間がかかる
- 特徴量にドメイン知識が必要
RNN
- 時間による変遷を考慮できる
- クライアントブラウザの種類などのコンテキストを考慮できる
Collaborative Metric Learning
- オンラインで近似的に高速に解ける
- Amebaで注目してる手法
Amebaの推薦基盤
マルチメディア機械学習の取り組み
スピーカー:サイバーエージェント 藤坂 祐介
アメブロ画像カテゴライズ
- ブログのAmeba公式ジャンルのカテゴライズを自動化したい
- NLP+投稿画像認識
- 内製のラベル付け管理ツールで30万枚の画像をタグ付け
- 分類精度。t-SNE. top1 82.73%
- アルゴリズムはKerasでResNet
スパム画像検知
- エログロなどのスパム画像を検出したい
- スパム画像は全体の0.1%
- アルゴリズムはKerasでResNet
- 教師データは日々の監視業務で作成
- いい精度が出ていない
次の課題。マッチングアプリで業者が同じようなプロフィール画像を使い回すユーザがいるので検出したい
- 画像をdhashで64次元に変換
- Humming距離で類似度を計算
- 7,8bitで良い精度が出て、実際に使われている
楽曲の盛り上がり検知をやってみた
- 課題は楽曲のサビ検知
- メロディ、サビ、その他の3分類で精度評価して、分類精度51%
大規模分散深層学習とChainerMNの進歩と課題
スピーカー:PFN 秋葉 拓哉
- ChainerMNのMNはMulti Nodeの略
- 分散深層学習を非同期でやるよりも、同期でやった方が精度が高い。大事なのはスループットではなく精度
- ChainerからChainerMNに移行する際のコードの変更量は少ない
- 2016年では分散深層学習すると精度が落ちる。しかし、2017年には精度が保てるようになった。しかも高速
- 分散深層学習で2-3週間かかっていたものが256GPUsで1時間まで短縮されたが、PFNは1024GPUsで15分まで短縮した
- 非同期型はネットワークの状況によって学習結果が異なるため、扱いづらい、チューニングしづらいのが難点
- マルチノード構成にした場合、1Gbでは1台より遅くなる。10Gbで遅くならないぐらい。40Gbで戦えるかもレベルだが、未検証