はじめに サイトリライアビリティエンジニアリング(SRE)について学んだことをアウトプットしたいと思います。 今回は、エラーバジェット編です。 エラーバジェットとは? エラーバジェットとは、サービスの信頼性がどの程度損なわれても許容できるかを示す指標です。 例えば、サービスレベル目標(SLO)が「99.99%」のリクエスト応答率を維持することである場合、エラーバジェットは、エラー応答率を「0.01%」以下に抑えることになります。 開発チームと運用チームは、エラーバジェットの条件を満たしてシステムの信頼性を維持するという共通目標に向かってお互いに協力し合いながら働きます。 なぜ必要なのか? エラーバジェットの説明をみると当然の内容のように感じますが、なぜエラーバジェットという共通目標の設定が必要なのでしょうか? これは、開発チームと運用チームの目標の違いから生じる行動の対立を避ける為になりま
