タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

incidentに関するheavenshellのブックマーク (6)

  • PagerDuty Incident Response Documentation

    このドキュメントは、PagerDutyにおけるインシデント対応プロセスが載っています。 重大インシデントや、新しくオンコールを始める社員の準備に利用している、PagerDutyの内部ドキュメントの一部を切り出したものです。 このドキュメントではインシデントに備えることだけではなく、インシデント発生中、また収束後の対応についても説明します。 オンコールを担当する人や、インシデント対応プロセスに関与する人(またきちんとしたインシデント対応プロセスを制定したい人)が読むことを想定しています。 このドキュメントが何なのか、なぜ存在するかは、「このドキュメントについて」を参照してください。 どこから手を付けるべきか? もしあなたがインシデント対応が初めてで、組織的な手順がない場合は、まず「はじめに」で何ができるかを確認してください。 そして詳細な手順を、Training Courseから確認すること

    PagerDuty Incident Response Documentation
  • 重大事故の時にどうするか?|miyasaka

    ヤフー時代の部下から突然メッセンジャーが。 「以前宮坂さんが緊急対応時に残して頂いた言葉を今度セミナーで使っていいですか?」 と。 リーダーの仕事はいっぱいあるけどなかでも大きな仕事の一つは重大事故の発生の時の陣頭指揮。平時は部下で回せるようにするのがマネジメントだけど、危機の時まで部下にまかせるわけにはいかない。 お恥ずかしながらヤフー在職中の22年で何度か重大事故を起こし関係者の人に多大な迷惑をかけてしまった。その度にその陣頭指揮をとった。 結果的にヤフーのなかでもっとも深刻な事故対策をやった人の一人じゃなかろうか。そのなかからノウハウ的なものがたまってきたものを部下にメモしておくってあげたものを彼は覚えていてくれたらしい。 彼いわく危機対応の時にすっごく役にたって指針になったといってくれて送ってくれた。 ひょっとしたら他の人にも参考になるかとおもって(若干訂正してますが)ここに残して

    重大事故の時にどうするか?|miyasaka
  • baby shutdown my server - mumumu の日記

    Development, Translation, daily life, thoughts, and so on. 赤子に Xeonサーバをシャットダウンされました。。上の画像のような感じでサーバを置いていて、なんか触ってるなーと思ったらLEDの光が消えてました。。 名前解決結果のキャッシュサーバをこのサーバが兼ねていたのでネットが不通になったり、ビルドが走っていたWindowsサーバが電プチによって起動しなくなったりなど、少なからざる被害をもたらしました。 「子供の手の届かない場所に置きましょう」という注意書き一般を鼻で笑い飛ばしていたのを死ぬほど後悔した次第です(´ー`; ) この注意書きで言うところの「子供」とは、赤ちゃんが歩き始める時期が既に該当してるんですね。世界中の赤子と向き合うエンジニアに 「サーバは子供の手の届かない場所に置きましょう」 と注意喚起したいと思います...

  • 大規模障害から1年余り、あの企業が「その後」を語った

    「この度は取材をお受けしましたが、どう対応したらよいか。今でも迷いがあります」。担当者は取材の冒頭で、心境をこう吐露した。 記者は取材のためレンタルサーバー事業を手掛けるファーストサーバ(社:大阪市)を訪れた。1年半ほど前に、顧客企業が利用していたサーバー約5700台のデータをほぼ消失させる大規模障害を起こした事業者だ。 今回の取材は、過去に失敗を経験した複数の企業や公的団体に申し込んだ。目的は、「IT運用の失敗から技術者がどう学び、再発防止に取り組むべきか」をまとめる企画記事を執筆するためだ。 中でもファーストサーバは、運用のプロであるべきITベンダーが、一部とはいえ現場担当者のずさんな運用作業を見逃していた実態が明るみになり、個人としても大きな衝撃を受けた。失敗を経てどう体制を立て直したのか、大いに興味があった。 「非技術者」にも分かる再発防止策を:ファーストサーバ 簡単に、ファース

    大規模障害から1年余り、あの企業が「その後」を語った
  • Engadget | Technology News & Reviews

    The Polaris Dawn crew is back on Earth after a historic mission

    Engadget | Technology News & Reviews
    heavenshell
    heavenshell 2013/04/25
    胃が痛くなる
  • ファーストサーバ社の障害に関して - naoyaのはてなダイアリー

    あまりまとめられないので箇条書きで。 「クラウド (IaaS)」と「レンタルサーバ」の区別 技術的には「クラウド (における IaaS)」と「レンタルサーバー」は明確に異なるものなので、そこは混同されないことをおすすめしたい 今回障害が起こったファーストサーバのサービスはレンタルサーバであって、クラウドサービスではないだろう クラウド = Amazon Web Services (AWS) や Heroku がその代表例だと思ってもらえばいい *1 具体的には、日経新聞の当該記事のこと → http://www.nikkei.com/article/DGXNASFK2600L_W2A620C1000000/ 意図は不明だが「クラウド」のような目新しいものと今回の事件とを結びつけて何かしらの印象を与えようとするのは、個人的には感心しない 業者が「クラウド」と謳っていたかどうかは知らない。例え

    ファーストサーバ社の障害に関して - naoyaのはてなダイアリー
  • 1