Вдали от воздействия на надежность, пришло время двигаться, чтобы думать о том, как улучшить надежность.
Есть много вариантов для улучшения и приоритеты их требует некоторой мысли. Я поделюсь параметрами в данный момент, но команда Google Sre поделится в этом расчете для измерения воздействия на ваш бюджет ошибок.
TTD Время обнаружения — время между затронутым пользователем, и кто-то в вашей команде сообщается.
TTR Время к разрешению — время между проинформированным и исправлением.
Воздействие% Процент воздействия — сколько пользователей будет данное особое влияние на неудачу.
TTF Время провала (иногда называемое временем TBF между сбоями) — это часто вы ожидаете, что что-то произойдет.
Все вместе…
Ожидаемое влияние определенного типа неисправности в вашем бюджете ошибок пропорциональна временного обнаружения плюс с временным разрешением, умноженным на процентность воздействия на время отказа от времени. Эта последняя стоимость TTF выражает, как часто вы ожидаете, что это конкретное неспособность произойти.
Так что улучшить надежность, вы можете сосредоточиться на Сокращение ттр Отказ Может быть, устанавливая более быстрый оповещение или более частые проверки мониторинга.
Или даже ввести автоматическое оповещение в среде, которая ранее полагалась на людей, определяющих вещи на графических панелях.
Может быть, споттинг Одиночные точки провала (SPOF) в вашей архитектуре, а затем реплицируясь, что это еще один вариант, чтобы снизить Воздействие% или, может быть, делать Канарские релизы С выделенными группами пользователей, тем самым снижая влияние%
Наличие этого расчета означает, что мы можем начать расставить приоритеты, на каких областях влияния SLO мы ориентируемся.
Оригинал: «https://dev.to/eggsy84/gcp-devops-certification-day-eight-794»