pandazx's blog

Hadoop, データ分析など雑多な技術ブログ

Team AI Meetup #1に行ってきた

スライド写真は後でUP

mercari.connpass.com

アジェンダ

  1. 「What can image recognition & machine learning do for Mercari?」 by 山口 拓真
  2. 「メルカリにおける機械学習システム基盤について」 by @Hmj_kd
  3. Q&A

What can image recognition & machine learning do for Mercari?

  • DNNのInception-v3でerror rate 29.3%。AWS上で評価
  • 誤認識した例:デザインがほぼ同じだが、靴のサイズが違うだけでメンズとレディースで違う。ヒトでも困難
  • うまくいった例としては、詳細カテゴリは間違うが、キッズ用品かどうかは当たることが多い。
  • ブランド認識と認識で注目した領域の可視化
  • アイテム詳細情報の推定
    • 5000万枚学習
    • 推定した結果をユーザが商品登録時の初期カテゴリとして使用(ユーザの操作負荷軽減)
    • 推定した結果をユーザが検索する際の色指定にも対応できる。青いスカート、赤いスカートなど
    • 色推定する際に重要な領域は識別でアテンションの高い領域を利用
  • Image Recognition System Architecture
    • GAEを基盤にkubernetes, docker, spinnakerを利用
    • Mercari APIから上記GAE上のImage Recognition APIを実行
    • Image Recognition API内ではキューを挟んでワーカーが動作
    • 推定はCPUで運用。GPUは使っていない。350msec/req程度で処理できれば現状は十分
  • 画像検索
  • ネットワーク
    • ブランド判別や商品アイテムの詳細推定は1つのネットワークで実現している
    • 計算コストの低減はPCAで次元圧縮

メルカリにおける機械学習システム基盤について

  • 機械学習システム基盤のコンセプト
    • メインアーキテクチャはkubernetes
    • 特定ベンダー非依存
    • ローカルと本番で同一実行環境
  • Architecture Overview
    • 写真参照
  • Workflow
    • 写真参照
  • 2018年以降の予定
    • 2-4モデルが稼働中
    • 精度を監視して更新する機構
    • OSSに向けて(予定)
  • プロジェクト体制は3-4名

Q&A

  • 画像検索による商品検索の精度の現状と短・中期的な達成度合いの見通し
    • 画像検索は直近1,2ヶ月であれば対応できるが、全画像は1億枚以上あり、対応がインフラ的にもアルゴリズム的にも困難
  • 論文の手法そのままではなく、メルカリ独自の工夫はある?
    • そこまで最新アルゴリズムは使っていない。Inception-v3はパラメータ数が少なかったり、クセがわかっているので使っている
  • アカデミアとの関わりは?
  • 機械学習プロジェクトをどう進めている?
    • ビジネスサイドとの軋轢。コミュニケーション。デモをすぐに作ってイメージ共有を行う
    • コミュニケーションのための事例集を作っておく
  • 画像検索の新カテゴリ対応の課題はある?
    • 特にしていない。ユーザから得られたデータ次第