ota42y
2017/09/28
Rails Developers Meetup #5
マイクロサービスにおける
非同期アーキテクチャ
• ota42y
• ゲームクライアントエンジニア
→サーバエンジニアに転職(1年ぐらい前)
• rubyとかgoとかC++とか
• twitterとかgithubとか
自己紹介
• twitter凍結したらこちらへ
– https://ota42y.com/
– ネタとして入れたら今朝になって現実味が…
あとでツイート全削除かな…
–
凍結されそう
マイクロサービスにおける非同期アーキテクチャ
マイクロサービスにおける非同期アーキテクチャ
• 外から見たときは一つのアプリ
• 内部的にはドメイン事に別々のサーバ
microservice
ダイエット家庭教師
FiNCモール
FiNC アプリ
lifelog 法人向けchat
ranking main
• 各サーバは独立しており、API経由で連携
• 非同期に連携処理も多数含まれる
• 巨大かつ複雑になりやすい→知見
microservice
ダイエット家庭教師
FiNCモール
FiNC アプリ
lifelog 法人向けchat
ranking main
マイクロサービスにおける非同期アーキテクチャ
処理の完了を待たずに次の処理を実行し、
メインの流れとは別にその処理が進行する
今回の文脈では待ち時間を減らすためにす
ぐレスポンスを返し、別プロセス等で処理
非同期処理
今回は特にJob Queueの話
Mail
Server
Rails
user
今回は特にJob Queueの話
Mail
Server
Rails
user
今回は特にJob Queueの話
Mail
Server
Rails
user
今回は特にJob Queueの話
Mail
Server
Rails
user
今回は特にJob Queueの話
Mail
Server
Rails
user
Oh!
今回は特にJob Queueの話
Mail
Server
Rails
user
今回は特にJob Queueの話
Mail
Server
Rails
user
Slowly…
今回は特にJob Queueの話
Mail
Server
Rails
user
Queue
今回は特にJob Queueの話
Mail
Server
Rails
user
Queue
今回は特にJob Queueの話
Mail
Server
Rails
user
Queue
今回は特にJob Queueの話
Mail
Server
Rails
user
Queue
Fast!
今回は特にJob Queueの話
Mail
Server
Rails
user
Queue
今回は特にJob Queueの話
Mail
Server
Rails
user
Worker
Queue
今回は特にJob Queueの話
Mail
Server
Rails
user
Worker
Queue
今回は特にJob Queueの話
Mail
Server
Rails
user
Worker
Queue
今回は特にJob Queueの話
Mail
Server
Rails
user
Worker
Queue
今回は特にJob Queueの話
Mail
Server
Rails
user
Worker
Queue
今回は特にJob Queueの話
Mail
Server
Rails
user
Worker
Queue
Oh!
今回は特にJob Queueの話
Rails
Queue
Job Queueを抽象化したActiveJobは
Railsに標準搭載
Rails環境での非同期処理では一般的な構成
• microserviceでは非同期処理を多用する
• 非同期処理の移り変わりとともに紹介
microservice
ダイエット家庭教師
FiNCモール
FiNC アプリ
lifelog 法人向けchat
ranking main
牧歌的時代
〜何でもdelayed_jobに突っ込む〜
delayed_job
https://github.com/collectiveidea/delay
ed_job
Railsで最も簡単に導入できるJob Queue
delayed_job
https://github.com/collectiveidea/delay
ed_job
• RDBのテーブルをQueueとして使う
• 1 job=1 recordとして保存する
• RDB以外を用意・運用する必要無い(redisとか)
• 優先度や時刻指定など一通りの機能がある
• RDBに書き込むのでJobは永続化される
FiNCでは最初期から採用
delayed_job
delayメソッドに続けて本来のメソッドを呼ぶだけ
• 関連する情報がシリアライズされてDBへ
• workerがデータを取り出して復元・実行
便利(o゜▽゜)
しかしある日…
🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥
🔥🔥🔥突然の大障害🔥🔥🔥
🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥
delayed_jobが遅くなる
アプリのメインのサービスで障害が…
delayed_jobがjobを実行するのが急激に遅くなる
queueが処理されずにどんどん積まれていく
1時間たっても非同期処理が実行されず、
先に進めなくなるユーザや表示が変に…
\(^o^)/
delayed_jobが遅くなる
delayed_jobではjobの同時実行を防ぐ機構がある
制御用カラムにworkerの識別子を書き、
カラムのupdateに成功(=実行権の取得)
した場合に処理を実行し、同時実行を防いでいる
MySQLの例
こんなupdate文で実行権を取得して処理を実行
(delayed_jobに:optimized_sql を設定した場合)
MySQLの例
実行可能なjobの中で、最も優先度の高いやつ1つ
に対して自分の識別子をupdate
成功したら実行権を取得したとしてjobを実行する
他workerが実行権を得るとwhere句から外れる
そのため、実行権を重複して得ることはない
地獄への急行列車
indexが効かないwhere句の絞り込み&ソート
→テーブルロック
地獄への急行列車
indexが効かないwhere句の絞り込み&ソート
→テーブルロック
whereの条件は、queueのだいたい全部が対象
(未実行のqueueが対象なので)
→未実行jobが増えるとupdate時間が延びる
→実行権取得に時間がかかり、処理速度の低下
地獄への急行列車
処理速度が低下し 処理速度 < 増加速度 になる
→未実行jobが増加しさらに処理速度が遅く
→無限に遅くなる負のループに
地獄への急行列車
処理速度が低下し 処理速度 < 増加速度 になる
→未実行jobが増加しさらに処理速度が遅く
→無限に遅くなる負のループに
処理のほとんどがupdate待ち
→並列数を増やしても待ってるworker増えるだけ
地獄への急行列車
処理速度が低下し 処理速度 < 増加速度 になる
→未実行jobが増加しさらに処理速度が遅く
→無限に遅くなる負のループに
処理のほとんどがupdate待ち
→並列数を増やしても待ってるworker増えるだけ
よって打つ手がなくなる
😇 😇 😇
最大のボトルネックに
新規ユーザ登録や既存ユーザの行動に応じて、
非同期のjobが作られる
→ユーザ数が増えるとjobが詰まりやすくなる
最大のボトルネックに
新規ユーザ登録や既存ユーザの行動に応じて、
非同期のjobが作られる
→ユーザ数が増えるとjobが詰まりやすくなる
サービスが成長すると障害が起きる
😱なんとかせねば😱
その場は緊急対応で乗り切った
大移行時代
非同期処理の整理
何も考えずにdelayしていたので、
そもそもdelayを使って何をしているかを整理
非同期処理の整理
何も考えずにdelayしていたので、
そもそもdelayを使って何をしているかを整理
• 巨大な処理
対象データが多い
複雑な処理をしている
• 複数サービスとのデータ連携
非同期処理の整理
何も考えずにdelayしていたので、
そもそもdelayを使って何をしているかを整理
• 巨大な処理
対象データが多い
複雑な処理をしている
• 複数サービスとのデータ連携
巨大な処理
巨大な処理
クリティカルかどうかで場合分け
• クリティカル
• ユーザ作成時の初期化処理
• 再実行が難しい処理
• クリティカルではないもの
• フォロー数の再計算
• 検索用キャッシュのアップデート
• 簡単に再実行可能なやつ
巨大な処理
重要度に応じて処理わけ
• クリティカル
• 信頼度が重要なので引き続きdelayed_job
• クリティカルではないもの
• 後からの再実行が容易
• 基本的に別バックエンドへ移動
• delayed_jobのjob数を減らす
バックエンド選定
delayed_jobからの変更先を選定
gemの安定度や経験等を元に以下の2つが候補に
• sidekiq
• resque
バックエンド選定
delayed_jobからの変更先を選定
gemの安定度や経験等を元に以下の2つが候補に
• sidekiq
• resque
sidekiq
redisをバックエンドに使うJob Queue
• スレッドベース
• redisなので並列度は上げやすい
• リトライ機構あり
他のmicroserviceで採用していたり、
社内に経験者がいる的なのでこれ
sidekiq
移動が簡単で、大量にjobが発行されるものから
sidekiqを利用するように変更していく
たまたまActiveJobを使っていなかったので、
delayed_jobをActiveJob(+sidekiq)に書き換える
(手動で1つずつ)
😆
ここまでのまとめ
• 巨大な処理
• クリティカルなもの
• 安全なバックエンド ( delayed_job )
• クリティカルでは無いもの
• 並列処理に問題がないもの( sidekiq )
• delayed_jobのjob数増加を抑える
• 複数サービスへの連携
イベントアーキテクチャ時代
ここからの話
• 巨大な処理
• クリティカルなもの
• 安全なバックエンド ( delayed_job )
• クリティカルでは無いもの
• 並列処理に問題がないもの( sidekiq )
• delayed_jobのjob数増加を抑える
• 複数サービスへの連携
複数サービスへの連携
microserviceではあるサーバの変更に対応して、
別サーバが対応する処理を行うことが頻繁にある
ダイエット家庭教師
FiNCモール
FiNC アプリ
lifelog 法人向けchat
ranking main
複数サービスへの連携
microserviceではあるサーバの変更に対応して、
別サーバが対応する処理を行うことが頻繁にある
複数サービスへの連携
更新時に他サービスに何をさせれば良いのか?
を更新側が知る必要があり、結合度が高い
🤔
やってることの図解
Lifelog Ranking
StepsCampaign
Point
Steps
Update
イベント駆動アーキテクチャ
これはどうもイベント駆動アーキテクチャっぽい
クライアントがリクエストを発
行して処理を依頼する代わりに、
クライアントがある事態が起
こったことを通知し、他者が何
をすべきかを知っていることを
期待します。他の誰かに何をす
べきかを指示することは決して
ありません。
Sam Newman著,佐藤直生監訳,木下哲也訳(2006)『マイクロサービスアーキテクチャ』,オライリージャパン.
複数サービスへの連携
Lifelog
Steps
Update
Event
• 条件を満たすと対応するEventを送信
複数サービスへの連携
Lifelog Ranking
StepsCampaign
Point
Steps
Update
Event
• 条件を満たすと対応するEventを送信
• 受け取り側はEventを受信したら処理する
複数サービスへの連携
Lifelog Ranking
StepsCampaign
Point
Steps
Update
Event
• 条件を満たすと対応するEventを送信
• 受け取り側はEventを受信したら処理する
送信側と受信側の結合度が減る
良さそう(o゜▽゜)
具体的な内容
イベント送信
AWSのSNS(Simple Notification Service)を利用
(Pub/Subメッセージングしてくれるサービス)
送る側はSNSにデータを送るだけ
Lifelog
AWS SNSSteps
Update
イベント受信
AWSのSQS(Simple Queue Service)を利用
(簡単なqueueシステム)
Lifelog Ranking
AWS SNS AWS SQSSteps
Update
イベント受信
AWSのSQS(Simple Queue Service)を利用
(簡単なqueueシステム)
SNSをsubscribeすると、
eventがキューにコピーされる
Lifelog Ranking
AWS SNS AWS SQS
Steps
Update
イベント受信
SNSは複数のSQSに同時にコピーしてくれる
各サービスは自分のSQSを作り、SNSをsubscribe
Lifelog Ranking
Point
AWS SNS
AWS SQS
Steps
Update
Steps
Update
イベント受信
あらたにeventを受け取りたい場合も、
SNSをsubscribeすれば良く、送信側の変更は不要
Lifelog Ranking
StepsCampaign
Point
AWS SNS
AWS SQS
性能も良い
SQSは
• 大量にキューを積んでも遅くならない
• 意図的に消さない限り消えない
ので安心ヽ(・∀・)ノ
性能も良い
SQSは
• 大量にキューを積んでも遅くならない
• 意図的に消さない限り消えない
ので安心ヽ(・∀・)ノ
一度10万ぐらいjobを積んだけど、
並列度は簡単に増やせるので大丈夫だった
(delayed_jobなら死んでた)
🍺🍺🍺優勝🍺🍺🍺
…
SNS/SQSには癖がある
• 冪等である必要がある
• SQSは1回以上取り出す事を保証
• 同じjobが2回実行される場合がある
• 実行済みの時、並列実行の時に気をつける
• 従量課金
• 送ったデータ数・サイズ課金
• 大量に送りまくる使い方だと課金死
SNS/SQSには癖がある
• SNSが遅い
• 同リージョンで40msぐらいかかる
• delayed_jobやsidekiqと比べると遅い
• もっと早いという噂も聞くので設定かも
• 依存設定がAWSのコンソールに集中
• 変更履歴無い
• 依存関係がわかりにくい
統一フォーマットが必要
自由に送るとフォーマットが違って実装が大変
ある程度フォーマットを決めてやりとり
ダイエット家庭教師
FiNCモール
FiNC アプリ
lifelog 法人向けchat
ranking main
統一フォーマットが必要
こんな感じのフォーマットを決めて運用
両方移行しないといけない
良さそうだがmicroservice間の通信の事なので、
送信側・受信側共に移行する必要がある
Lifelog Ranking
AWS SNS AWS SQS
両方移行しないといけない
良さそうだがmicroservice間の通信の事なので、
送信側・受信側共に移行する必要がある
→簡単に移行できないとみんな移行しない
Lifelog Ranking
AWS SNS AWS SQS
やりとりはgem化
移行を楽にするために
• SNSへ送信
• SQSから取得
• イベントのフォーマット統一
のためのgemを作った
https://github.com/ota42y/rising_dragon
やりとりはgem化
移行を楽にするために
• SNSへ送信
• SQSから取得
• イベントのフォーマット統一
のためのgemを作った
https://github.com/ota42y/rising_dragon
Lifelog Ranking
AWS SNS AWS SQS
Steps
Update
欠点 <<< 利点
気をつける所はあるが、利点の方が大きい
マイクロサービスではかなり良いアーキテクチャ
癖に対してもいくつか対応中
• イベントをまとめて送りSNS/SQSの費用削減
• AWSの情報を元に依存関係の見える化サービス
• 設定ファイルからSNS/SQSの自動設定
まとめ
非同期処理はサーバでは超重要
FiNCでは処理に応じてバックエンドを使い分ける
適切に使い分けると特製をうまく使えてべんり
まとめ
• イベントっぽいもの
• イベント駆動アーキテクチャ
• SNS/SQS
• イベントでは無いもの
• クリティカルなもの
• 安全なバックエンド
• (delayed_job)
• クリティカルでは無いもの
• 並列処理に問題がないバックエンド
• (sidekiq)
マイクロサービスにおける非同期アーキテクチャ
おまけ
delayed_jobの障害対応
障害が起きてしまった場合は、
• 手動でDBの行の一部をファイルに書き出す
• 書き出した行を削除
• queueの件数が減るのでまともに動く
• queueが減ってきたら待避したのを戻す
と、頑張れば何とかなります(つらい)
delayed_jobいつまで使うの
いちおうdelayed_jobと使い分けています
サービスが1000万ユーザとかになった場合、
delayed_jobの障害が簡単に起きる状態になる
なので最終的には全て捨てる事になりそう…
(当面は併用が続く)
どこまでイベントにするか
イベントはいつ実行されるか確実ではない
同期的に実行したい場合は、
event/sidekiqは使えないので普通にHTTP通信
SQSのFIFOキューは
AWS SQSのFIFOキューは
https://aws.amazon.com/jp/blogs/news/new-for-amazon-simple-queue-service-fifo-queues-with-exactly-
once-delivery-deduplication/
メッセージが送信順に 1 回だけ、重複なく処理さ
れることを保証するように設計されています。
というキュー
ただ、1秒当たりの最大取得数があるので、
大量に積んだときの処理に不安があり採用見送り
(あとTokyoにまだ来てなかった)
会場Q&A
キューの分け方どうしてます
Q.
キューをどういう基準で使い分けているか?
A.
ほとんど分けずに一つのキューにしている
1分の処理も1秒の処理も同じキュー
そっちの方がリソース管理が容易
毎秒数100積まれるようなものがあり、
そういった問題がありそうなものだけ別キュー
AWS Batch
Q.
AWS Batchという選択肢は…?
A.
この問題を早急に直さないとサービス止まりまく
るので、最小限の変更ですむような解決法にした
一段落したのでそういったものは検討している

More Related Content

PPTX
マイクロサービスにおける 結果整合性との戦い
PDF
マイクロにしすぎた結果がこれだよ!
PPTX
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
PDF
Dockerからcontainerdへの移行
PDF
こわくない Git
PDF
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
PDF
シリコンバレーの「何が」凄いのか
PDF
Dapr × Kubernetes ではじめるポータブルなマイクロサービス(CloudNative Days Tokyo 2020講演資料)
マイクロサービスにおける 結果整合性との戦い
マイクロにしすぎた結果がこれだよ!
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
Dockerからcontainerdへの移行
こわくない Git
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
シリコンバレーの「何が」凄いのか
Dapr × Kubernetes ではじめるポータブルなマイクロサービス(CloudNative Days Tokyo 2020講演資料)

What's hot (20)

PDF
テスト文字列に「うんこ」と入れるな
PDF
Webアプリを並行開発する際のマイグレーション戦略
PDF
REST API のコツ
PDF
クラウド環境下におけるAPIリトライ設計
PDF
Apache Arrow - データ処理ツールの次世代プラットフォーム
PDF
[CEDEC 2021] 運用中タイトルでも怖くない! 『メルクストーリア』におけるハイパフォーマンス・ローコストなリアルタイム通信技術の導入事例
PDF
マルチテナントのアプリケーション実装〜実践編〜
PDF
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
PDF
マイクロサービス 4つの分割アプローチ
PPTX
本当は恐ろしい分散システムの話
PDF
ソフトウェアテスト入門
PDF
ドメイン駆動設計のための Spring の上手な使い方
PDF
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
PDF
いつやるの?Git入門 v1.1.0
PDF
ストリーム処理を支えるキューイングシステムの選び方
PPTX
GraphQLのsubscriptionで出来ること
PDF
Swaggerでのapi開発よもやま話
PPTX
テストコードの DRY と DAMP
PPTX
NGINXをBFF (Backend for Frontend)として利用した話
PDF
大企業アジャイルの勘所 #devlovex #devlovexd
テスト文字列に「うんこ」と入れるな
Webアプリを並行開発する際のマイグレーション戦略
REST API のコツ
クラウド環境下におけるAPIリトライ設計
Apache Arrow - データ処理ツールの次世代プラットフォーム
[CEDEC 2021] 運用中タイトルでも怖くない! 『メルクストーリア』におけるハイパフォーマンス・ローコストなリアルタイム通信技術の導入事例
マルチテナントのアプリケーション実装〜実践編〜
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
マイクロサービス 4つの分割アプローチ
本当は恐ろしい分散システムの話
ソフトウェアテスト入門
ドメイン駆動設計のための Spring の上手な使い方
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
いつやるの?Git入門 v1.1.0
ストリーム処理を支えるキューイングシステムの選び方
GraphQLのsubscriptionで出来ること
Swaggerでのapi開発よもやま話
テストコードの DRY と DAMP
NGINXをBFF (Backend for Frontend)として利用した話
大企業アジャイルの勘所 #devlovex #devlovexd
Ad

Viewers also liked (11)

PDF
JSUG20171027-spfingboot-k8s-ocp
PDF
[DO07] マイクロサービスに必要な技術要素はすべて Spring Cloud にある
PDF
[AC05] マイクロサービスは分割がキモ!基幹システムのためのドメイン駆動設計
PDF
マイクロサービスアーキテクチャの設計 - JUG2015
PPTX
マイクロサービスに必要な技術要素はすべてSpring Cloudにある #DO07
PDF
マイクロサービスで、
一歩先行くImmutable Infrastructureを目指そう
PDF
要求の変化とマイクロサービスアーキテクチャ
PDF
Light and shadow of microservices
PDF
マイクロサービス化設計入門 - AWS Dev Day Tokyo 2017
PDF
マイクロサービスアーキテクチャ - アーキテクチャ設計の歴史を背景に
PDF
[Cloud OnAir ] #03 No-ops で大量データ処理基盤を簡単に構築する
JSUG20171027-spfingboot-k8s-ocp
[DO07] マイクロサービスに必要な技術要素はすべて Spring Cloud にある
[AC05] マイクロサービスは分割がキモ!基幹システムのためのドメイン駆動設計
マイクロサービスアーキテクチャの設計 - JUG2015
マイクロサービスに必要な技術要素はすべてSpring Cloudにある #DO07
マイクロサービスで、
一歩先行くImmutable Infrastructureを目指そう
要求の変化とマイクロサービスアーキテクチャ
Light and shadow of microservices
マイクロサービス化設計入門 - AWS Dev Day Tokyo 2017
マイクロサービスアーキテクチャ - アーキテクチャ設計の歴史を背景に
[Cloud OnAir ] #03 No-ops で大量データ処理基盤を簡単に構築する
Ad

More from ota42y (12)

PPTX
なぜか技術書典5で 3サークルの運営を同時にやった話
PPTX
なぜか技術書典5で 3サークルの運営をやってた話
PPTX
Rails上でのpub/sub イベントハンドラの扱い
PPTX
goroutineはどうやって動いているのか
PPTX
bootsnapはどれくらい早くなるのか
PPTX
Microservices Architecture の利点と欠点
PDF
ruby-ffiについてざっくり解説
PDF
FiNCでのOSSとのつきあい方
PDF
CarrieWaveについてざっくり解説
PDF
prmdのドキュメントが読みやすくなる話
PPTX
身近なサイバー攻撃から身を守る
PPTX
HCI分野の紹介と最新研究
なぜか技術書典5で 3サークルの運営を同時にやった話
なぜか技術書典5で 3サークルの運営をやってた話
Rails上でのpub/sub イベントハンドラの扱い
goroutineはどうやって動いているのか
bootsnapはどれくらい早くなるのか
Microservices Architecture の利点と欠点
ruby-ffiについてざっくり解説
FiNCでのOSSとのつきあい方
CarrieWaveについてざっくり解説
prmdのドキュメントが読みやすくなる話
身近なサイバー攻撃から身を守る
HCI分野の紹介と最新研究

マイクロサービスにおける 非同期アーキテクチャ