Рубрики
Uncategorized

Эффективное управление техническим риском с бюджетами ошибок

Компромиссы тяжелые. Подумайте о том времени, когда вам пришлось выбирать между двумя одинаково убедительным вариантом … Теги с Sre, Devops.

Компромиссы тяжелые. Подумайте о том времени, когда вам приходилось выбирать между двумя одинаковыми вариантами убедительной — (а) адресации технической задолженности или (b) отталкивания того, что давно ожидаемая функция выпуска и рискованного производства. Или Когда ваша команда не может договориться о том, где нарисовать линию по улучшению задержки запроса против доставки крупного нового обновления.

Если это звучит знакомым, посчитайте себя частью вечного клуба надежности надежности вечного загадки. Для нас довольно легко, чтобы люди могли сообщить о воздействии нового выпуска функции, в отличие от утилиты очистки части системы, которая заставит нас беспокоиться меньше. Это связано с тем, что выбросы функций чаще, чем не, связаны с воздействием бизнеса, то есть. Потенциал для получения дохода, но немного сложнее количественно определить и оправдать влияние на бизнес, вызванное инженерной надежностью в ваше предложение.

Увы, без здорового баланса между выпуском скорости и надежности надежности, вы собираетесь в конечном итоге не только несчастными клиентами, но и несчастными командами. Часто команды понимают эту проблему слишком поздно — когда деловые результаты уже приняли удар.

Здравствуйте бюджеты ошибок!

Ключ к разрешению этой дилеммы — добавить больше контекста. Это может поддержать ваше решение принятия решений, помогая вам понять компромиссы между скоростью выпуска и инженерии надежности. Бюджеты ошибок являются одним из таких примеров количественной меры, которые могут помочь этому принятию решений в режиме реального времени. Как только мы примем, что риск нельзя избежать, но может быть удалось, становится легче понять утилиту и применение бюджетов ошибок.

Бюджеты ошибок свяжитесь обратно к концепции SLIS, SLOS и SLAS. Вот быстрый контур того, что они имеют в виду —

Соглашение на уровне обслуживания (SLA) Это обещание между вами и вашими клиентами о приемлемой доступности вашей системы в течение определенного периода времени, и он описывает последствия для бизнеса и компенсацию в случае нарушения. По сути, не поддержание вашей SLA собирается повредить вашу нижнюю строку.

Цели уровня обслуживания (SLOS) являются лишь очередным вариантом SLAS, которые внутренне принадлежат продуктам и инженерным командам. SLOS, как правило, более строгистыми, чем SLA, чтобы убедиться, что нарушение SLO предшествует нарушению SLA. Каждое влияние на клиента услуга должна иметь SLO, которая будет служить его количественной мерой надежности. Это определено в согласовании с заинтересованными сторонами бизнеса, так как им важно быть на вершине SLA, они могут обещать клиентам. Им также необходимо определить количественную оценку и объяснить их инженерному команду о стоимости, прилагаемых к простояю, и его негативные последствия на деловую репутацию.

Индикаторы уровня обслуживания (SLIS) Метрики, которые можно контролировать и может действовать как количественные показатели качества обслуживания, которую вы предоставляете своим клиентам. Они являются прямым измерением поведения службы и, как правило, документированы в соглашениях об уровне обслуживания (SLA), а также в целях уровня обслуживания (SLOS).

Вот где приходят бюджеты ошибок.

Обычно доступность рассчитывается как:

Скажем, не пробное запрос охватывает ошибки, без ответов и медленных ответов (например, Если он слишком медленно для клиента, и они переходят на что-то еще), которые являются прямыми показателями опыта клиента. Теперь бюджет ошибок для обслуживания может быть рассчитан как:

Бюджет ошибок = (1 — запросы/(общее количество запросов)

Таким образом, если SLO для обслуживания указывается как наличие 99,5%, то эта услуга имеет бюджет ошибки 0,5%, что указывает сумму общего времени, вам разрешено.

Урегулировать дебаты

Бюджеты ошибок являются единой метрикой, которая может быть использована, чтобы определить, может ли система может потребовать дополнительного риска развертывания новой функции или, если команда должна быть сосредоточена на создании системы более надежной. Если бюджет ошибки близок к прохождению, то команда продуктов в идеале должна быть очень осторожна о развертывании новых функций. Освобождается, чтобы иметь бюджеты ошибок в качестве ключевого метрики принятия решений для решения этой загадочной передачи в любой организации, независимо от размера.

Вы могли бы начать, поддерживая тесные посмотреть на расход бюджета по ошибкам для всех зависимых услуг новой выпуска функции. Решение о возможности выпуска скорости выпуска с надежными инженерными задачами становится более объективной. Когда бюджеты ошибок почти потребляются, команда должна сосредоточиться сосредоточиться на улучшении достоверности текущей системы.

Высказывание Является ли инструмент для управления инцидентами, который предназначен для Sre. Создайте безупречную культуру, уменьшая необходимость в физических военных комнатах, централизовать DishBoards, объедините внутреннюю и внешнюю SLIS и автоматизировать разрешение на инциденту Эскадвесные действия и создать базу знаний для эффективной обработки инцидентов.

Оригинал: «https://dev.to/squadcast/managing-technical-risk-effectively-with-error-budgets-3c0h»