⼀一般社団法⼈人  情報処理理学会
SOFTWARE  JAPAN  2016  
ビッグデータ活⽤用実務フォーラム
CET(Capture  EveryThing)プロジェクトにおける
機械学習・データマイニング最前線
⾼高柳柳慎⼀一
株式会社リクルートコミュニケーションズ
ICTソリューション局アドテクノロジーサービス開発部
兼
株式会社リクルートライフスタイル
ネットビジネス本部ディベロップメントデザインユニット
アーキテクト2  兼  リーン開発グループ
2
⾃自⼰己&会社紹介
⾃自⼰己紹介
•  ⾼高柳柳慎⼀一
•  専⾨門:物理理学,  統計科学
•  経歴:
–  2006:  北北海道⼤大学⼤大学院理理学研究科物理理学先⾏行行修⼠士卒
–  2006-‐‑‒2008:  某材料料系財団法⼈人
•  半導体試料料画像・測定装置スペクトルの解析ソフト開発
–  2008-‐‑‒2015:  某⾦金金融技術開発会社
•  (俗にいう)クオンツ業務
–  2013:総合研究⼤大学院⼤大学複合科学研究科統計科学専攻博⼠士課程
–  2015:株式会社リクルートコミュニケーションズ・リクルートラ
イフスタイル
•  サービス開発・データ分析/機械学習
3
【会社説明】リクルートの提供価値=ビジネスモデル
<提供価値>
⼈人⽣生や⽣生活の中で意思決定において
その⼈人が必要とする情報を提供
クライアント ユーザー
<提供価値>
ユーザとの出会いの機会や
最終的なマッチングを創出
【会社説明】リクルートグループ内での⽴立立ち位置
5
㈱リクルート
ホールディングス
㈱リクルートキャリア
㈱リクルートジョブズ
㈱リクルートスタッフィング
㈱スタッフサービス・ホールディングス
㈱リクルートライフスタイル
㈱リクルートマーケティングパートナーズ
㈱リクルート住まいカンパニー
㈱リクルートアドミニストレーション
㈱リクルートテクノロジーズ
㈱リクルートコミュニケーションズ
主な事業会社
機能会社
制作・設計・宣伝・流流通・CS
WEBサービス開発機能
社員募集領領域
AP⼈人材募集領領域
派遣⼈人材募集領領域
本社機能
R&D(事業開発)
グローバル
住宅宅領領域
派遣⼈人材募集領領域
⽇日常消費領領域
結婚・進学・⾃自動⾞車車等領領域
アドミニストレーション機能
IT/基幹システム開発
2012年年10⽉月1⽇日  リクルートグループの主要10社
リクルートコミュニケーションズの概要
6
•  リクルートコミュニケーションズ
–  リクルートグループの機能会社
–  制作、流流通・宣伝、カスタマーサポート
–  デジタルマーケティング等の統括的な⽀支援
リクルートコミュニケーションズ
メディア
制作
流流通・宣伝
カスタマー
サポート
サポート
デジタル
マーケティ
ング
6
リクルートライフスタイルのサービス概要
8
CETプロジェクトについて
•  リクルートライフスタイルの全サービス横
断で、リアルタイムにデータ(システムロ
グ、ユーザの⾏行行動、在庫変動など)を収
集・分析するための基盤
•  リアルタイムデータ分析に必要な処理理(収
集、加⼯工、集計、分析、可視化)を⼀一気通
貫で実施
•  少数精鋭なビジネス系メンバ、データサイ
エンティスト、エンジニアでプロジェクト
を推進
CETの概要・特徴
9�
•  サービス・ビジネスに関するあらゆる情報
の変化(ユーザの⾏行行動、在庫量量の変動な
ど)を、我々サービス提供者がリアルタイ
ムに把握できていない
•  その結果、状況に応じて最適な施策を講じ
ることができておらず、機会損失が発⽣生し
ている
CETが解決する課題
10�
•  リアルタイムなデータに対する適切切な処理理
を実施することで課題を解決
CETのログ収集システム構成
11�
CET  –  Capture  EveryThingサービス サービス
運⽤用者
機械学習
エンジニア
データ
分析者
が
活⽤用
ELB
Elasticsearch,Kibana
BigQuery
S3
APIELB Cloud  Bigtable
*GCP関連製品は技術検証中
Cloud  Pub/Sub
Cloud  Dataproc,Apache  Spark
計算結果を格納
•  コールセンタでリアルタイムにログをモニタ
リング
•  アプリケーションのスローダウンやユーザ操
作の⼾戸惑いなど、ユーザビリティに関する情
報を迅速に検知し、顧客サポート品質向上に
努める
リアルタイムデータ可視化事例例  –  Airレジ
12�
•  Spark  Streamingを使⽤用してウインドウ集計を
実施
•  定期的に直近のユーザ⾏行行動ログを集計し、宿
ページごとのUU数をリアルタイムに算出
ストリームデータ処理理事例例1  –  じゃらん
13�
•  Spark  Streamingを使⽤用してログを定期的に集計
•  処理理時間が特定のしきい値を超えるログの件数を
URLごとに集計し、結果をサービス運⽤用者へ通知
ストリームデータ処理理事例例2  –  サービス共通
CET  –  Capture  EveryThingサービス サービス
運⽤用者
ELB Cloud  Pub/Sub
Cloud  Dataproc
Apache  Spark
14�
Amazon  SNS
AWS  Lambda
メール
Slack
ストリームデータ処理理事例例3  –  直近閲覧状況の可視化
15
16
CETにおける機械学習/データマイニング
17
SQL  /  DB技術
コーディングスキル
機械学習
統計学
エンジニア兼データ分析者の使う道具・学問
CETプロジェクト全体像(順次GCPに移⾏行行中)
18
出典:「AWSからGCPに切り替えたらコストが1/10になった」CETエンジニア 吉田啓二氏インタビュー
http://engineer.recruit-lifestyle.co.jp/techblog/2015-11-27-yoshida-interview-2/
CETのデータ分析環境(AET)
19
AWS  S3
Elastic  Search
TreasureData
RedShift
Spark  Notebook
Docker
※⼀一部試験環境⽤用
AWS  S3
Cloud  
Bigtable
RUNDECK
※サーバ・バッチ起動管理理
Adhoc分析⽤用サーバ(EC2)
Spark⽤用サーバ(EMR)
Compute  Engine
⾃自動
ロード
バッチサーバ
機械学習/データマイニングの流流れ
•  データの取得
–  COLDデータ:  数億件のレコードをRedShift,  
TreasureDataで捌いて特徴量量抽出/⽣生成
–  HOTデータ:  CETのElastic  Searchから取得
•  機械学習/データマイニングの実⾏行行
–  1,000万件程度度のレコードに対して実施
•  分析環境(AWS)
–  基本的にはr3.2xlargeを複数⼈人で使⽤用
–  計算パワーが⾜足りないときは💰で殴る
(インスタンスのグレードを上げる)
•  サービスへの展開
–  BigTableに格納し、結果をAPI化
•  バッチ処理理はRundeckで⼀一元管理理
•  バッチサーバー構築はAnsible(絶賛作業中)
20
Rundeckによるバッチ⼀一元管理理
21
社内⽤用パッケージの開発
•  DB接続・IDマスキング・AUC計算などの
よくやる処理理をパッケージとして共通化
22
顧客のクラスタリング
•  時系列列データのクラスタリングを実施
•  あるクラスタに属するユーザに対して、
サービス改善の施策を提案
23※クラスタリング結果(同⼀一クラスタに属するもの)
XXしそうなユーザの判定
•  ユーザの⾏行行動に応じて、画⾯面選択の省省略略やデフォ
ルト値の変更更を⾏行行う
•  多値クラス分類問題を解いて、デフォルトの選択
肢を⽤用意する
24
⼈人気上昇ランキング
•  じゃらんの全宿の”予約速度度”を計算し、ス
コアリング。⼈人気度度に応じた⽂文⾔言を表⽰示
25
•  在庫変動データに基づいた、在庫売り切切れ予測
•  予約が急激⼊入り始める時点の予測
•  多腕バンディットアルゴリズムを活⽤用した配信
•  ディスプレイ広告配信の最適化
•  リアルタイム異異常検知
今後対応を検討していること
26�
27
機械学習/データマイニングエンジニアの
スキル向上の施策
⼿手を動かしながら学ぶ機械学習
28
⼿手を動かしながら学ぶ機械学習
クラスタリング・回帰・⾃自然⾔言語処理理までを⼿手を動かしながら
順にお勉強するという企画
機械学習⼤大会
29
機械学習⼤大会
某機械学習サイトにインスパイアされたサイト(Play  frameworkで内製)。
予測結果をアップロードすると結果の計算&順位付けを⾏行行う
(※この⼤大会は、ほぼ皆某Deepでやってました…)
論論⽂文輪輪読会
30
論論⽂文輪輪読会
テーマは⾃自由&論論⽂文の時期も⾃自由、ただし「発表者本⼈人が
これから勉強したいこと」が条件
論論⽂文輪輪読会
31
32
補⾜足
•  SparkRをEC2上で動かして分散処理理して
みる  |  Tech  Blog  |  リクルートライフスタ
イル  RECRUIT  LIFESTYLE
http://engineer.recruit-‐‑‒lifestyle.co.jp/
techblog/2015-‐‑‒08-‐‑‒19-‐‑‒sparkr/
•  第4回  [データ分析編]“制約なし”で⼤大
規模データ分析基盤を構築:リクルートラ
イフスタイルの技術⼒力力を追え!|gihyo.jp  
…  技術評論論社
http://gihyo.jp/dev/serial/01/recruit-‐‑‒
lifestyle/0004
(補⾜足)関連資料料  1/3
33�
•  リクルートライフスタイル全サービス横断
のリアルタイムログ収集・可視化・分析基
盤@JAWS-‐‑‒UG  Meguro  #2  
http://www.slideshare.net/
RecruitLifestyle/ss-‐‑‒53400381
•  「ビッグデータは“リアルタイム”でこそ価
値がある」CETエンジニア  吉⽥田啓⼆二⽒氏イ
ンタビュー  |  Tech  Blog  |  リクルートライ
フスタイル  RECRUIT  LIFESTYLE  
http://engineer.recruit-‐‑‒lifestyle.co.jp/
techblog/2015-‐‑‒11-‐‑‒02-‐‑‒yoshida-‐‑‒
interview-‐‑‒1/
(補⾜足)関連資料料  2/3
34�
•  「AWSからGCPに切切り替えたらコストが
1/10になった」CETエンジニア  吉⽥田啓⼆二
⽒氏インタビュー
http://engineer.recruit-‐‑‒lifestyle.co.jp/
techblog/2015-‐‑‒11-‐‑‒27-‐‑‒yoshida-‐‑‒
interview-‐‑‒2/
(補⾜足)関連資料料  3/3
35�

CET(Capture EveryThing)プロジェクトにおけるﰀ機械学 習・データマイニング最前線