SLOを作ろうとしているのですが、最初の一歩でつまずいています。
プロダクトのどの振る舞いをSLIにすべきか、可用性・レイテンシ・正確性のどれを優先するか、判断軸が定まらず迷っています。
たとえば、今の現場では「サイトは落ちてはいけない」という期待だけが先行していて、ビジネス側・エンジニア側で“信頼性のライン” がバラバラです。
話し合おうとしても、
「この指標は誰のため?」
「その数値にした根拠は?」
「本当にそこまで信頼性を上げる必要があるの?」
と議論が発散しがちで、進め方が見えません。
また、エラーバジェットの話をすると「それは障害を許容するということ?」とネガティブに受け取られることもあり、どう扱うべきか悩んでいます。
最初のSLOをどのように定義し、どの順番でステークホルダーと認識をそろえていくのが良かったか、皆さんの経験や工夫をぜひ聞きたいです。
- SRE見習い が 3日前 に質問しました
- 最終編集日 3日前
- コメントを投稿するにはログインする必要があります
あなたの答え
