[B! operation] [2ページ] eigo_sのブックマーク

eigo_s id:eigo_s

operationに関するeigo_sのブックマーク (49)

我々はこうしてSLI/SLOを設計し運用を始めました -これからSLI/SLOの運用を始める人に向けて-
SRE大集合！みんなで学ぶ、信頼性を高めるための取り組みLT大会の登壇資料です。概要つい先日SLI/SLOの設計が終わりSLOの運用をスタートしましたがそれまでの道のりは楽ではありません…
eigo_s 2023/05/26
sre

operation

SLO

SLI

monitoring
リンク
Istio、サイドカーパターンを不要にする「Ambient Service Mesh」機能をメインブランチに統合、正式な機能へ
Istioは、サービスメッシュを実現する新たな仕組みとして試験的に開発していた「Ambient Service Mesh」をメインブランチに統合し、正式な機能として組み込んで行く方針であることを発表しました。現在のIstioは、各サービス（≒KubenetesのPod）ごとにプロキシを配置し、サービス間のネットワークをプロキシ経由で構成することによってサービスメッシュを構築しています。これによりサービス間の通信のトラフィックコントロール、暗号化、可観測性（オブザーバビリティ）などの機能が実現されるわけです。この仕組みは、サービスの隣にプロキシを配置することから、「サイドカー」パターンなどと呼ばれています。しかしPodごとにサイドカーをデプロイする必要があるため、これにかかる手間やリソースの消費が課題でした。 eBPFを用いたサイドカーフリーなCiliumへ注目が集まるそうした中で最
eigo_s 2023/04/06
istio

eBPF

operation

service mesh

observability

publickey
リンク
マイクロソフトが「FinOps Foundation」に加盟を発表。クラウドのコストの透明化と最適化を推進
マイクロソフトが「FinOps Foundation」に加盟を発表。クラウドのコストの透明化と最適化を推進 FinOpsとは昨年頃から注目され始めた言葉です。 DevOpsが、Ops（運用）からフィードバックを得て開発（Dev）を改善していくというサイクルを繰り返すのと同じように、FinOpsでは運用からフィードバックを得てクラウドのコスト（Fin：Financial）を最適化していく、という意味が込められています。 FinOps Foundationにおいても、クラウドで発生する費用の透明性を高め、可視化し、それを最適化し、改善を続けていくことを「FinOps」としています。オンプレミスのシステムではハードウェアもソフトウェアも、基本的にはあらかじめ見積もられた通りの費用が発生することが購入時点で分かっています。しかしクラウドは従量課金制であるため、費用に柔軟性がある一方で、コンピュ
eigo_s 2023/03/01
microsoft

operation

publickey
リンク
Amazon Route 53 Application Recovery Controller zonal shift 試してみた #reinvent #jawsug #opsjaws | DevelopersIO
コンバンハ、千葉（幸）です。先日行われた Ops JAWS Meetup#22 re:Invent 2022 recap & LT大会にて、Amazon Route 53 Application Recovery Controller zonal shift 試してみたというタイトルで発表しました。当日の発表資料の共有・およびその補足を行います。おことわり Amazon Route 53 Application Recovery Controller zonal shift は現時点でプレビューです正式リリース時には仕様や公式ドキュメントの記述が変わる可能性がありますのでご留意くださいわたしの発表内容は2022/12/7時点の情報に基づいています公式ドキュメントはこちら。 Zonal shift in Amazon Route 53 Application Recovery
eigo_s 2022/12/20
aws

operation

amazon route53
リンク
『家族アルバムみてね』に学ぶ、AWSのReserved InstancesとSavings Plansの勘所 | gihyo.jp
みてね×gihyo.jpスペシャル『家族アルバムみてね』に学ぶ、AWSのReserved InstancesとSavings Plansの勘所『家族アルバムみてね』（⁠⁠以下、みてね）ではサービスの拡大に合わせてAWSのコスト削減のために、2018年から5年間にわたってReserved Instances（以下、RI）とSavings Plans（以下、SPs）の活用をしています。現在に至るまでの間、サービスやインフラの成長に合わせそれらの使い方を試行錯誤してきましたが、振り返ってみるとどのタイミングでも注意すべきポイントは共通していることがわかりました。そこで今回の記事では、みてねでのRI/SPsの活用の歴史を振り返りながら、それぞれを購入する際に注意すべきポイントについて共有いたします。 RIとSPsとは振り返りの前にまずは、RIとSPsの概要について紹介します。 RIと
eigo_s 2022/12/19
aws

operation
リンク
GitHub - Netflix-Skunkworks/service-capacity-modeling
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
eigo_s 2022/11/30
aws

operation

netflix
リンク
【開催報告＆資料公開】運用を楽にしよう！AWS Systems Manager 事例祭り | Amazon Web Services
Amazon Web Services ブログ【開催報告＆資料公開】運用を楽にしよう！AWS Systems Manager 事例祭りこんにちは。ソリューションアーキテクトの石橋です。 2022年11月4日に「運用を楽にしよう！AWS Systems Manager 事例祭り」と題したイベントを開催しました。クラウドを活用したシステム運用の中核を担う AWS Systems Manager の日本初のお客様事例紹介イベントです。対面とウェビナー配信のハイブリッド形式でお届けしましたが、多くの方にご参加いただきました。登壇者の PayPay 株式会社様、株式会社三越伊勢丹システム・ソリューションズ様からは AWS Systems Manager を活用した運用効率化に関する様々なエピソードをお話しいただきました。ご参加いただいたみなさまには改めてお礼申し上げます。本エントリではその内
eigo_s 2022/11/09
aws

operation

aws systems manager
リンク
Googleでもやっている障害対応訓練の「Wheel of Misfortune」をやってみた。 - MonotaRO Tech Blog
序文こんにちは。MonotaROの伊藤です。弊社では障害対応訓練の実施手法の一つであるWheel of Misfortune(略称:WoM)を実践しています。WoMの導入で、障害対応体制の強化を行うことができましたので、実施までの経緯や得られた学びなどを中心に紹介したいと思います序文運用担当者の負荷が高まり続ける問題運用担当者=社歴が長いベテランエンジニア運用のスケールアウト障害対応訓練をやってみよう訓練環境の準備の問題訓練シナリオの問題外部からの助け Wheel of Misfortuneとは実施時の様子シナリオ開始時の様子モニタリング画面の表示 WoMとDiRT(Disaster in Recovery Training) 障害対応訓練をやってみた結果準備時点で感じたメリット手順書の不備を発見できたこと障害が起こりかねない場所を考えるきっかけになったこと
eigo_s 2022/09/06
sre

google

incident

operation
リンク
［速報］AWS、JupyterLab IDEベースの新サービス「SageMaker Studio Lab」無料提供を発表、ブラウザで機械学習を学び試せる。AWS re:Invent 2021
Amazon Web Services（AWS）は、機械学習の実行環境を提供する新サービス「SageMaker Studio Lab」を無料で提供すると、開催中のイベント「AWS re:Invent 2021」で発表しました。 SageMaker Studio Labは、機械学習の実行環境として広く使われているオープンソースのJupyterLab IDEをベースにした新サービスです。PythonやR言語などに対応しており、ターミナル機能やGitとの連携機能などを備えています。 AWSには、すでに「SageMaker Studio」がサービスとして存在していますが、今回発表された「SageMaker Studio Lab」は機械学習の教育を目的とし、機能の一部をサブセットとして取り出したものといえます。インストールやセットアップなどは不要で、Webブラウザからすぐに利用可能な環境が立ち上が
eigo_s 2021/12/02
aws

Jupyter

operation

machine learning

publickey
リンク
SigNoz | The Open Source Datadog Alternative
OpenTelemetry-Native Logs, Metrics and Traces in a single paneSigNoz is an open-source Datadog or New Relic alternative. Get APM, logs, traces, metrics, exceptions, & alerts in a single tool.
eigo_s 2021/11/01
monitoring

observability

operation
リンク
大規模オンプレミス環境はGitOpsの夢を見るか（CI/CD Conference 2021 by CloudNative Days 発表資料）
大規模オンプレミス環境はGitOpsの夢を見るか（CI/CD Conference 2021 by CloudNative Days 発表資料）大規模オンプレミス環境はGitOpsの夢を見るか（CI/CD Conference 2021 by CloudNative Days 発表資料） 2021年9月3日 NTTデータシステム技術本部生産技術部ソフトウェア技術センタ菅原亮
eigo_s 2021/09/27
operation

gitops
リンク
メルペイのシステム運用とPlaybookの共通管理への挑戦 | メルカリエンジニアリング
こんにちは、メルペイでSREとして従事している @myoshida です。この記事は Merpay Tech Openness Month 2021 の8日目の記事です。 SREチームはお客さまへよりよいサービス利用体験を提供するため、日々様々な改善活動に取り組んでいます。その活動の一環としてPlaybookの概念を導入し、運用者の運用負担を減らす取り組みを始めました。今回はそのことについて説明してみたいと思います。概要メルペイではアプリケーションエンジニアとSREの双方がオンコール制度のもと運用に携わっています。運用の悩みは様々ですが、そのうちの1つに手順書の取り扱いがあります。どこに置くべきか、更新はされているのか、何を書けばいいのか、どの場面でどの手順書を利用すればよいのかというような悩みはどこの現場でも少なからず存在すると思います。そこで、Playbookと呼ばれる体系的
eigo_s 2021/09/21
sre

devops

mercari

operation
リンク
サプライチェーン・セキュリティ Infra Study 2nd #4「セキュリティエンジニアリングの世界」
Infra Study 2nd #4「セキュリティエンジニアリングの世界」サプライチェーン・セキュリティ昨今ではSolarWindsやKaseya's VSAのようにRansomewareによるサプライチェーンを狙った攻撃が大きく報道に上がっています。 2014年のGOM Player…
eigo_s 2021/08/25
security

operation
リンク
「仕事のコード」を残す際のチェックリスト｜Uchio Kondo
最初に注意: この文章は「はじめに」「総論」が長いです🙃 追記＠2021/08/11 17:46想像よりはるかに反響をいただいたので、せっかくだからと要点をMarkdownにしてGitHubに置いてみました。何かにご利用ください。はじめに・「仕事のコード」、つまり、業務などで作ったコードが、なるべく負債にならず、なるべく俗人化しないようにするために留意すると良さそうなことを自分の経験などから列挙したものです。・ちなみに、「対象読者」に書いてありますが、そもそものモチベーションが「非エンジニアがノーコード系のサービスで作ったシステムが最近増えつつあるような...」というところでした。こういうのどう取り扱うといいんですかねとなった時、まずは運用できる形にしてもらいたい、という狙いがあります。結果的に、ジュニアなエンジニアが良いシステムを残す上でも使える知識かなと思います。・個別の項目に
eigo_s 2021/08/11
engineer

development

document

operation
リンク
みずほ銀行システム障害に学ぶ
みずほ銀行システム障害の調査報告書が公開されたのがニュースになって、Twitterなどで色々な人がコメントをしているのを見た。140文字しか書けない空間で他人の失敗談の揚げ足取りをするのは簡単だが、そこからは一時の爽快感以外に何も得るものがないので、僕はそういうのはカッコ悪いと思っている。そこで、ちゃんと読んでみたら全く他人事でない部分も沢山あるし、非常に面白く勉強になったので、ブログにまとめてみる。技術的な話銀行のシステムがどのようになっているのか、全然イメージが湧いていなかったので、それがまず勉強になった(p.29)。トラフィックのソースに応じて用意された色々なシステムから基幹システム「MINORI」の取引メインバスにトラフィックが流れ、そこから各種システムへとリクエストが送られていく。この辺はService Oriented Architectureらしい。開発当時としては（
eigo_s 2021/06/17
development

operation

incident
リンク
ssmjp 20210520 nlog2n2 tejun
パフォーマンスの良いGASの書き方 Best Practice啓介大橋16.1K views•70 slides
eigo_s 2021/05/21
operation
リンク
クラウドと可用性
こんにちは、技術開発室の滝澤です。今回はクラウドと可用性についてのポエムを書いてみたいと思います。まとめを最初に書くと次のようになります。原則としては、ゾーン冗長構成にすることで可用性は向上する。クラウド事業者側のソフトウェアのバグやヒューマンエラーなどが原因の障害ではゾーン冗長構成でも回避できない場合がある。マルチリージョン構成やマルチクラウド構成は本当にそのレベルの可用性が必要かどうかを検討する。可用性（アベイラビリティ）まず最初に可用性についての復習をしてみましょう。可用性は英語のavalability（アベイラビリティ）を日本語に訳した言葉で、簡潔に述べると「利用したいときに利用できる能力」という意味です。日本語としては稼働率と呼ばれることもあります。例えば、あるサービスのウェブサイトが、障害が起きない、あるいは障害が起きてもすぐに復旧していつでも利用できる状態に
eigo_s 2021/05/14
iaas

operation

engineer
リンク
Dash 2020: Guide to Datadog’s newest announcements | Datadog
30; }, handleResize() { if (window.innerWidth >= 1024) { this.mobileOpen = false; this.dropdownOpen = 'none'; } }, checkAnnouncementBanner() { const announcementBanner = document.querySelector('.announcement-banner') || document.querySelector('.announcement-banner--large'); if (announcementBanner) { this.hasAnnouncementBanner = true; } else { this.hasAnnouncementBanner = false; } } }" x-init="chec
eigo_s 2020/08/12
datadog

incident

monitoring

security

operation
リンク
Cloud Operator Days Tokyo - Cloud Operator Days Tokyo 2025
【日時】 2025年9月5日（金）9:50-17:00（終了後懇親会を開催） ※9:30開場【場所】 docomo R&D OPEN LAB ODAIBA 東京都港区台場2-3-2 台場フロンティアビル 12F 【内容】基調講演、スポンサー講演、パネルディスカッション、一般講演、OpsMeetup、アワード表彰、展示ブース、懇親会など
eigo_s 2020/02/19
cncf

operation

kubernetes
リンク
latestタグのままdocker imageを本番運用してどうなったか - 京都行きたい
latestタグや書き換えるためのタグ（develop, stagingなど）を使って、本番で運用するのはやめましょう。コンテナイメージのキャッシュ状況やリリースフローによっては予期しない形で予期しないバージョンが本番で起動する可能性があります。本記事では、どのプラットフォームやツールで発生したかについては記載しません。本題はそこではないのと、そもそも運用が間違っているので記述しても余計な枝葉になるからです。この記事ではどういうことが起きたか、について書きます。どういうことが起きたかサービスで、dockerイメージのlatestタグを使って本番運用していた。全コンテナをgraceful restartしたようだ。（つもりだったが・・・）別の作業中、管理画面の表示がおかしくなっているという話が出てきた。そこで調べてもらったところ、なぜかリリースしたはずの機能が正常に機能
eigo_s 2020/01/24
docker

operation
リンク
前のページ 1 2 3 次のページ