pandazx's blog

データ分析など雑多な技術ブログ

サイバーエージェントの機械学習祭りに行ってきた

勉強会機械学習

www.wantedly.com

に行ってきた。以下はメモ。

推薦アルゴリズムの今までとこれから

スピーカー：サイバーエージェント内藤遥

推薦アルゴリズムの種類

協調フィルタリング
- データがないと機能しない
コンテンツベース
- データがなくても大丈夫。商品の特徴量を使う

GroupLens

古典的なユーザベースの協調フィルタリング
アイテムベースの協調フィルタリング
Amazonが使っている
Abemaでも使っている
ハイパーパラメータがなく、使いやすい
共起のないデータの計算は省略できる

Matrix Factorization

Netflix Prizeで登場したアルゴリズム
ユーザの暗黙的評価。閲覧1、お気に入り2、購入3という評価値とするなど

Factorization Machines

MFの改善手法
ただ、MFより予測の計算量が多い。TopNの算出に時間がかかる
特徴量にドメイン知識が必要

RNN

時間による変遷を考慮できる
クライアントブラウザの種類などのコンテキストを考慮できる

Collaborative Metric Learning

オンラインで近似的に高速に解ける
Amebaで注目してる手法

Amebaの推薦基盤

推薦特化のバッチフレームワークを独自開発
読みやすさと柔軟性を重視
推薦アルゴリズムはMFが主流。Item2Vecも使用

マルチメディア機械学習の取り組み

スピーカー：サイバーエージェント藤坂祐介

アメブロ画像カテゴライズ

ブログのAmeba公式ジャンルのカテゴライズを自動化したい
NLP+投稿画像認識
内製のラベル付け管理ツールで30万枚の画像をタグ付け
分類精度。t-SNE. top1 82.73%
アルゴリズムはKerasでResNet

スパム画像検知

エログロなどのスパム画像を検出したい
スパム画像は全体の0.1%
アルゴリズムはKerasでResNet
教師データは日々の監視業務で作成
いい精度が出ていない

次の課題。マッチングアプリで業者が同じようなプロフィール画像を使い回すユーザがいるので検出したい

画像をdhashで64次元に変換
Humming距離で類似度を計算
7,8bitで良い精度が出て、実際に使われている

楽曲の盛り上がり検知をやってみた

課題は楽曲のサビ検知
メロディ、サビ、その他の3分類で精度評価して、分類精度51%

大規模分散深層学習とChainerMNの進歩と課題

スピーカー：PFN 秋葉拓哉

ChainerMNのMNはMulti Nodeの略
分散深層学習を非同期でやるよりも、同期でやった方が精度が高い。大事なのはスループットではなく精度
ChainerからChainerMNに移行する際のコードの変更量は少ない
2016年では分散深層学習すると精度が落ちる。しかし、2017年には精度が保てるようになった。しかも高速
分散深層学習で2-3週間かかっていたものが256GPUsで1時間まで短縮されたが、PFNは1024GPUsで15分まで短縮した
非同期型はネットワークの状況によって学習結果が異なるため、扱いづらい、チューニングしづらいのが難点
マルチノード構成にした場合、1Gbでは1台より遅くなる。10Gbで遅くならないぐらい。40Gbで戦えるかもレベルだが、未検証