技術的貯金

鳴かぬなら 作ってしまおう ホトトギス

入門監視読んだ

最初はアプリエンジニアだったがアラートが上がって夜に電話がかかってくる経験があり、強制的にバックエンドや監視に興味を持つことになった。

今ではバックエンドも普通に開発しているが監視に関しては terraformでコード管理されたdatadogで監視を入れている程度の知識しかなく、 先人が設定していただいたアラートがなったらなぜなったか調べる程度しかしてこなかった。

これではまずい、最初から学び直そうということで著名な本を読んでみる。

入門 監視 ―モダンなモニタリングのためのデザインパターン

入門 監視 ―モダンなモニタリングのためのデザインパターン

  • 作者:Mike Julian
  • 発売日: 2019/01/17
  • メディア: 単行本(ソフトカバー)

学びの多い本だった。

各章にまとめが書いてあったので備忘録として残しておく。

一部:監視の原則

1. 監視のアンチパターン

  1. ツールには依存しない。
  2. 監視は全員がやる仕事。devとopsの共感大事。
  3. 会社の基準のチェックボックスを埋めるだけではダメ。
  4. 監視するだけではもちらんダメ。都度直す。

「 監視は全員がやる仕事」が特に響いた。一部の人が行うと負担がかかる。

2. 監視のデザインパターン

  1. 監視もモノリシックシックよりマイクロサービスが良い(組み合わせ可能なものが良い)。
  2. ユーザー視点での監視からはじめよ。webノードの監視などにも手を広げる際にも常にユーザーへの影響を考える。
  3. 監視の仕組みはSaaSからはじめよ。airbnbもいまだにSaaS。よほどSaaSで対応しきれないものである限り自作しないのが賢明。
  4. 継続的改善

ゴリゴリにSaaS推しだった。たしかに悪意のあるSaaSには気をつけねばならないが初期はたしかにSaaSを使うべきだと感じた。

3. アラート、オンコール、インシデント管理

  1. アラートはメールで送らない。
  2. 手順書をかく。 1.すべての アラートはシンプルな閾値で決められるわけではない。
  3. 常にアラートを見直す。
  4. メンテナンス期間を使う。
  5. 誰かにアラートを送る前に自動復旧を試みる

最後の「誰かにアラートを送る前に自動復旧」が実現できると監視者いらない世界があってとてもいいですね。。

4. 統計入門

ノイズみたいなシステムの不具合に対してアラートしないようにするには統計の知識が必要。 ちょうど統計検定を勉強していてやはり統計はいろいろな分野でいきそうだ。

二部:監視の戦略

詳しいメモは qiitaに記事があった。

qiita.com

一口に監視と言っても、下記のように監視対象が様々であり具体的に紹介されている。

  1. ビジネス監視
  2. フロントエンド 監視
  3. アプリケーション監視
  4. サーバー監視
  5. ネットワーク監視
  6. セキュリティ監視

埋め込む前に各コンポーネント一通り復習して埋め込もうと感じた。

www.tbs.co.jp

圧倒的ヤラセ番組「モニタリング」人気だが、「IT観察バラエティ モニタリング」だれかyoutubeで放送してくれないかな、と思う今日この頃であった。