ログ基盤を
GCPで運⽤して
IQを下げたい話
古⾕ 遼
2
アジェンダ
•⾃⼰紹介
•ログ基盤の刷新の話
•新基盤の嬉しい話
•ちょっとだけ⾟い話
3
⾃⼰紹介
•古⾕ 遼(ふるたに りょう)
•Supership株式会社
•検索開発グループ
•Backend Team
•ペーペー
4
この発表の位置付け
Minami
Aoyama
Night Vol.1の
詳細版です
https://www.slideshare.net/secret/qOs2jFncsL2ig2
5
IQ 🤔???
•運⽤・活⽤難易度 = IQ
•運⽤・活⽤が難しい
(=IQ⾼い)システムはダメ
•運⽤・活⽤が簡単な
(=IQ低い)システムがいい
•IQ2まで下げような ← ⼤事
6
本題の前に
7
ごめんなさいその1
•スライド⾮公開らしいです
•⼤⼈の事情
•写真のweb公開も⼀応NGで
🙇 なんかアイコンが
ダメらしい
8
ごめんなさいその2
😂👆😂
9
ごめんなさいその2
•基盤の話です
•なぜ分析事例……
🙇
10
懺悔LTかな?
11
始めます
•ここから本題
•よろしくお願いします
🙇
12
サービス成⻑と
ログ分析基盤
13
絶賛成⻑中🙏🙏🙏🙏🙏
検索ソリューション
ASP 提供中
検索エンジン
サジェスト機能
スペラー機能
分析基盤提供https://www.s4p.jp/
14
ログ分析基盤⼤事
•サービスの⽅針決定
•ログの分析からスタート
•KPI
•アドホック集計
•etc…
15
ログ分析基盤⼤事
•サービスへフィードバック
•検索サービスの場合
•検索順位チューニング
•ホットワード抽出
•etc…
16
ログ分析基盤⼤事
•分析基盤は頑健であれ
•無停⽌運⽤
•応答速度維持
•コスト維持
•リカバリ容易
•etc…
17
元気に動くログ分析基盤たち
18
元気なのはええことや
😊
19
平和な⽇々に
忍び寄る影
20
メンテナンスや機能要件の数々
•「HDFSクラスタのディスク容量減ってるで」
•「Verticaの容量減ってるで」
•「ec2のeventでインスタンス再起動必要やで」
•「Redshiftのパフォーマンス悪いで」
•「サービス成⻑しまくってるからログの量が増えるで」
•「リアルタイムな分析の要件が増える(かもしれん)で」
•「分析DBが多すぎてどれ使えばええかわからんで」
•「Vertica死んだで」
•「Hive遅くて使いもんにならんで」
•「分析基盤もコストダウン必要やで」
21
thinking time
🤔
22
課題
•Hadoop
•性能⾯
•Hive集計遅い
•運⽤⾯
•ディスク容量との戦い
•on EC2
•(実際クラスタ死にかけた)
23
課題
•Vertica
•性能⾯
•わりといい感じ
•運⽤⾯
•容量制限あって横展開しづらい
•on EC2
•(実際後に死んだ🙏)
24
課題
•Redshift
•性能⾯
•💵💲💰がいる🤑💸💸💸
•テーブルチューニング⼤変
•運⽤⾯
•無停⽌運⽤できない
•クラスタメンテ中はクエリ打てない
25
⾦払って
運⽤頑張れ感
スケールも⾟い
26
💪😂🍤
🌟TSU 🌟RA 🌟I 🌟 😂😂😂😂😂😂😂😂😂
27
新基盤の予感
😎
よろしい
ならばPOCだ
28
新基盤を考える
29
できました
30
説明(ここからIQの低い話が続きます)
31
環境:EC2 → GCE
•環境をEC2からGCEに
•VM Live Migration
•リブートイベントなんてない
•利⽤時間による⾃動値引き
•リザーブドなんていらんかったんや
•スペック調整(=コスト調整)気軽
32
運⽤コスト低い
😆
_⼈⼈⼈⼈⼈⼈⼈⼈⼈_
> IQ下がる! <
 ̄Y^Y^Y^Y^Y^Y ̄
33
説明(ここからIQの低い話が続きます)
34
分析DB:Redshift → BigQuery
•分析DBはBigQueryに
•⾼パフォーマンス
•チューニング不要
•運⽤フリー
•容量無制限
•無停⽌
•格安 ← ⼤事
35
ストレージ:HDFS → GCS
•永続ストレージはGCSに
•運⽤フリー
•容量無制限
•無停⽌
36
運⽤コスト低い
🤗
_⼈⼈⼈⼈⼈⼈⼈⼈⼈_
> IQ下がる! <
 ̄Y^Y^Y^Y^Y^Y ̄
37
説明(ここからIQの低い話が続きます)
38
Log Queue:Elasticsearchの導⼊
•ElasticsearchをQueueに
•データ冗⻑化、寿命設定
•IDベースでのログの重複削除
•前段処理でのリトライしやすさ
•Indexベースの絞り込み
•後段処理のリトライ、分岐しやすさ
39
利⽤コスト低い
😇
_⼈⼈⼈⼈⼈⼈⼈⼈⼈_
> IQ下がる! <
 ̄Y^Y^Y^Y^Y^Y ̄
40
結果
41
⾼IQログ基盤が
42
低IQ基盤になりました
43
運⽤開始
44
当初の懸念
🤔
45
当初の懸念
🤔
って
ログ件数が跳ねても
耐えるの???
46
現実
🙃
数K record/sとか
頻発しても
余裕で耐える
47
ログ基盤はエコシステムになりました
_⼈⼈⼈⼈⼈⼈⼈⼈⼈_
> 圧倒的安定感 💪 <
 ̄Y^Y^Y^Y^Y^Y ̄
48
利⽤者の声
49
喜びの声
BigQueryになって
BIツールの
レスポンスが
爆速になった!
😀
50
喜びの声
移⾏後の環境で
システムトラブル
⼀度も起きてない!😀
51
喜びの声
BigQueryと
SpreadSheetの
連携超捗る!😀
52
喜びの声
ログ分析基盤の
運⽤費⽤が
⼤幅削減!😀
53
IQ下がるといいことしかないな
_⼈⼈⼈⼈⼈⼈⼈⼈⼈_
> 圧倒的勝利 💪 <
 ̄Y^Y^Y^Y^Y^Y ̄
54
IQはきっと⼀桁まで減っただろう
😇👍
55
現状
分析基盤刷新で
IQ80くらいまで
下がりました!😀
56
思ったよりIQ下がってない?
🤔
IQ80は
⾼くない?
57
⾟さはなくはない
58
案外曲者
59
ケース1
GAEでインシデントが発⽣しました。
5XX系のエラーレートが⾼まっています。
🤔わたし
なるほど。
でも今はGAEを使ってないから問題ないよね。
GCP
Loadタスク失敗したで。
特にアナウンスはしないけど5XX系エラー増えるで。
BQ
60
GAEの⾵邪がBQにうつったとでも⾔うのだろうか
_⼈⼈⼈⼈⼈⼈⼈⼈⼈_
> 圧倒的波及 <
 ̄Y^Y^Y^Y^Y^Y ̄
61
対策
•しばらく待って再実⾏
•⼤抵、安定するのは数時間後😢
•インシデント復旧から15分は不安定
•焦らず待つ(でも焦らされる😢)
•アラート⾶びまくり
62
ケース2
どんなクエリでも投げておいでや。
秒で返事するで。
🤔わたし
ログからサービスのスコアデータを作ろう。
ちょっと⼤きめのクエリを投げるぞ。
すまんな……
今腹痛いから返事せえへんで……
BQ
BQ
63
せめて500エラー返して
_⼈⼈⼈⼈⼈⼈⼈⼈⼈_
> 圧倒的無⾔ <
 ̄Y^Y^Y^Y^Y^Y ̄
64
対策
•⼤抵即再実⾏でOK
•タイムアウト + 再実⾏を仕込む
•Quotaや課⾦に注意…😢
65
要するに
_⼈⼈⼈⼈⼈⼈⼈⼈⼈_
> 気まぐれさん <
 ̄Y^Y^Y^Y^Y^Y ̄
66
ちょっと⾟い
•サービスに直結は⾟い
•BQこけても⼤丈夫に作る必要性
😂
67
ちなみに
_⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈_
> GCSも気まぐれさん <
 ̄Y^Y^Y^Y^Y^Y^Y ̄
68
Why Google Cloud Platform???!!!!
•マネージドサービス弱い?
•AWSはここまでエラーない印象
😂
69
とはいえ
70
それでも楽なのは間違いない
•タイムアウト + 再実⾏
•単純な⽅法で回避可能
•再実⾏だらけにはなるが……
•Queueのクッション性で耐える
•基盤⾃体は安定
•特にGCEの安定感すごい
71
要するに
•ログ基盤の要件
(⼤体)満たせました
👍👍👍
72
まとめ
73
運⽤楽になりました
_⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈_
> GCPでIQ下がった! <
 ̄Y^Y^Y^Y^Y^Y^Y ̄
😇
74
でも本当は
😇
_⼈⼈⼈⼈⼈⼈⼈⼈⼈⼈_
> IQもっと下げたい! <
 ̄Y^Y^Y^Y^Y^Y^Y ̄
75
おわりです
•ご清聴ありがとうございます
•IQ下げる⽅法募集中です
🙇
76
宣伝枠
77
宣伝枠
検索ソリューション
ASP 提供中
検索エンジン
サジェスト機能
スペラー機能
分析基盤提供https://www.s4p.jp/

ログ基盤をGDPで運用してIQを下げたい話(Supership 古谷遼)