Первоначально опубликовано на Ошибка неизбежна Отказ
SLOS являются ключевыми столбами в поездок надежности организаций. Но, как только вы установите свои SLOS, вам нужно знать, что делать с ними. Если они только метрики, которые вы выступали за один раз в голубой луне, они станут устаревшими. Чтобы убедиться, что ваши SLOS остаются актуальными, определите бюджеты и политики ошибок для ваших команд. В этом блоге мы посмотрим на основы бюджета по ошибке, как установить соответствующие политики и как для операции SLOS в течение длительного времени.
Бюджет ошибок — это процент от оставшейся комнаты Wiggle, у вас есть в вашем SLO. Вообще, вы будете информировать окно прокатки против исторического PURView в ваши данные. Это держит SLO свежих, контролируемых и всегда движется вперед. Бюджет ошибок может быть показан как расчет ниже:
Представьте, что вы установили SLO на 99,5% в течение месяца. Это означает, что ваш бюджет ошибок составляет 0,5%. Это 3,65 часа простоя в месяц. Если инцидент вызывает 1,22-часовое отключение, вы потеряли примерно одну треть бюджета ошибок на этот месяц.
Итак, что эта информация означает команды? Ваша ошибка бюджетной политики определит это.
Недостаточно знать, каков ваш бюджет ошибок. Вам также нужно знать, что вы будете делать в случае нарушения бюджета ошибок. Вы можете сделать это через Бюджетная политика ошибок Отказ Это определяет пороги оповещения и действия, необходимые для обеспечения решения об истощении бюджета ошибок. Он также обозначает политику эскалации, а также точку, в которой SRE или OPS следует обратно на пейджер обратно разработчику, если стандарты надежности не будут выполнены.
Оповещение : Оповещение (или пейджер) усталость наносит вред даже хорошо-опытных командах способности реагировать на инциденты. Это эффект приема слишком большого количества предупреждений, либо потому, что есть слишком много инцидентов, либо потому, что мониторинг забирает незначительные вопросы (также известные как уровень предупреждения). Это может снизить когнитивную способность вашей команды, что делает ответ на инцидент более сложным. Это также может привести вашу команду, чтобы игнорировать важные оповещения, что привело к серьезным инцидентам, происходящим не незамеченным.
Вы захотите убедиться, что ваше оповещение не позволяет вам знать каждый раз, когда есть небольшая часть вашего бюджета ошибок. В конце концов, это произойдет во всем окне прокатки. Вместо этого убедитесь, что оповещения имеют содержание вашей команды и указывают на то, что вам нужно предпринять действия. Вот почему многие команды заботятся о том, чтобы получить уведомление о скорости горения бюджета по ошибкам в течение определенного интервала времени, по сравнению с самими процентами истощения себя (то есть 25% против 50% против 75%).
Чтобы определить, нужно ли принять меры для ожога бюджета ошибок, пишите в положениях. Условия включения могут выглядеть что-то подобное: если ошибка бюджета% сгорела ≤% окна прокатки, не требуется предупреждение. В конце концов, на 90% ожога для бюджета ошибок не относится к тому, что у вас есть только 3 часа в вашем окне, и кода не нажимает.
Но, если ожог происходит быстрее, чем время, истекает, вам нужно знать, что делать. Кто должен быть уведомлен? В какой момент вам нужно остановить функции для работы по надежности? Кто должен владеть продуктом и быть называть это на данный момент? Добавьте ответы на такие вопросы, в свою ошибку Бюджетную политику Google произвел пример Из чего выглядит этот документ. Содержит информацию о:
- Обзор услуг
- Цели политики
- Политические нечасти
- SLO промах, отключение и политики эскалации
- Любая необходимая справочная информация
Передача назад пейджер : В приведенной выше примере политика Google напоминает нам: «Эта политика не предназначена для того, чтобы служить наказанием за отсутствующие SLOS. Остановка изменений нежелательна; Эта политика предоставляет команды разрешения на сосредоточение внимания исключительно на надежности, когда данные указывают на то, что надежность важнее других функций продукта. «Если определенный уровень надежности не выполнен, и продукт не может оставаться в пределах бюджета по ошибке в течение определенного периода времени, SRE или операции могут обратно пейджер разработчикам.
Это не наказание. Это способ сохранить dev, sres and ops все на той же странице, а качество смещения осталось в жизненный цикл Software путем стимулирования подотчетности разработчика. Качество вопросов. Разработчики проводятся к задаче для их кода. Если это не до PAR, функция работа будет остановлена, работа на надежности возьмет центральную стадию, а SRE или OPS будут передавать пейджер тем, кто пишет код. Это помогает защитить SRE и OPS от испытывающего усталость пейджеров или потратить все время на реактивную работу. Политика бюджета ошибок является эффективным способом, чтобы все было выровнено на том, что имеет значение больше всего, что является счастьем клиента.
Процесс, который входит в создание SLOS, особенно аспектов людей, чрезвычайно критичен для консистенции и способности масштабировать его по всей вашей организации. Чтобы оперировать SLOS, вам нужно вспомнить несколько ключевых вещей:
- Вы не собираетесь получить это правильно в первый раз, и все в порядке. Вам нужно иметь итеративное мышление для получения правильных SLOS, порогов и команд на месте. Терпение и настойчивость важны.
- Просмотрите свои SLOS на еженедельную или двухнедельную каденцию. У многих из вас есть внутренние операционные встречи обзора, где вы смотрите на ваши ключевые метрики надежности, такие как количество инцидентов, ретроспективное завершение и последующие действия. На этой встрече одной из ключевых вещей, которые вы захотите нанять время для рассмотрения, — это ваша панель инструментов SLO.
- Просмотрите критические Предстоящие инициативы совместно. Определите, могут ли какие-либо запланированные обновления или толкания могут превысить ваш бюджет ошибок и планировать это предотвращение этого. Вы продаете как можно более безопасно? Участники на этой встрече должны быть из продукта, Sre, основных сервисов инженерных команд и других заинтересованных сторон. После того, как вы получили эти основы вниз, вы можете начать расширить ваши практики SLO. # Advanced SLO практики # Вот несколько дополнительных, более продвинутых методов SLO, которые вы можете начать использовать, как только вы нашли успех с основы:
- Композитные SLOS: Объедините два или более SLOS из разных сервисов, чтобы представлять конечный вид продукта надежности. Это может включать в себя SLO, содержащий как пороги наличия, так и задержки.
- Лечение нарушений SLO как инцидентов: Как вы относитесь к нарушению как инцидент, и поток, что в ваш процесс управления инцидентом? Когда мы нарушаем наш SLO, мы затрагиваем наших пользователей и клиентов. Эти вопросы должны рассматриваться как инциденты. Обязательно определите правильное Уровни тяжести для слов нарушения.
- Предоставление бюджета ошибок: У вас могут быть окна или услуги по обслуживанию, которые должны быть недоступны в определенные периоды времени. Это может быть нормально и потребляет бюджет ошибок. Вы можете дать это бюджет ошибки, но убедитесь, что вы документируете причину, почему.
- Коррелирующие изменения в SLO: SLOS не похожи на бриллианты; Они не будут там навсегда. Спросите себя: «Это все еще действуют?» Ваша организация, ваши команды, и ваш продукт всегда развиваются и меняются. Почему ваши SLOS должны быть статичными?
Может быть, вы будете готовы сделать эти продвинутые шаги через несколько месяцев. Может быть, это займет несколько лет. Организация SLO TRUSE не выглядит одинаково. Важно помнить, что итерация, выравнивание и безупречная культура — это то, чем ясно для вашей практики SRE. Сломы и бюджеты ошибок являются только компонентами.
Если вам понравилось прочитать это, ознакомьтесь с этими ресурсами:
- SLO Усыновление в Twitter
- Как SLOS поможет вашей команде с владельцем услуг
- Как SLOS включает быстро, Надежное доставку приложений
Оригинал: «https://dev.to/blameless/determining-error-budgets-and-policies-that-work-for-your-team-3p3i»