Рубрики
Uncategorized

Как построить модель надежности для вашей организации

Первоначально опубликовано в неудаче неизбежно. Как вы принимаете практику, вы обнаружите, что там AR … Теги с Sre, Devops.

Первоначально опубликовано на Ошибка неизбежна Отказ

Поскольку вы принимаете практики SRE, вы обнаружите, что в каждой части вашего развития и операционного цикла есть возможность оптимизации. Sre разрушает бункеры и помогает изучить поток через каждый этап жизненного цикла программного обеспечения. Это формирует соединения между различными командами и ролями.

Понимание всех новых соединений, образованных практиками SRE, может быть непростой. Строительство модели SRE, специфична для вашей организации, это хороший способ сохранить четкую картину в вашей голове. Модель также действует как руководство для того, как должна выглядеть поддерживающая коммуникационная инфраструктура. В этом посте мы создадим базовую модель надежности и покажу вам, как создать одну для своей собственной организации.

Во-первых, давайте посмотрим на самую основную модель вашей услуги:

Действительно! Но с точки зрения сервиса, ничего не происходит. Сервис повлияет на предполагаемые изменения (например, развертывание) или непреднамеренным изменениям (например, инциденты). Инциденты могут быть все, что снижает надежность службы для пользователей.

Конечно, когда происходит инцидент, вы хотите восстановить сервис обратно к нормальной надежности. Давайте добавим инцидент ответ на нашу модель:

Происходит инцидент, который влияет на сервис. Затем команда начинает свою процедуру ответа на инциденту. Этот ответ определяет, как исправить инцидент. Коррекция может быть сделана либо самими респондентами, либо передаваемыми для развития. Кажется довольно легко, верно? Ну, это немного сложнее, чем это:

Давайте распустим наш инцидент на три основных этапа:

  • Классификация : Инцидент классифицируется на основе серьезности и окрестностей обслуживания, пострадавших от приоритетов и ускоренной сортировки.
  • Оповещение : Основываясь на классификации, команда по вызове уведомлена о том, что что-то асисна.
  • Выполнение Runbooks. : Чтобы разрешить инцидент, команды следуют за документированной процедурой.

В зависимости от необходимого ответа некоторые резолюции могут немедленно повлиять на сервис. Некоторые инциденты требуют немедленного ответа или имеют решения, которые могут быть реализованы непосредственно респонденты. Другим будет задержка воздействия, поскольку билеты проходят через развитие. Например, перезапустить серверы влияют на сервис. Изменение ошибки в коде проходит разработка.

Давайте добавим еще один ингредиент, который поможет вам учиться у инцидентов:

Инцидент ретроспектива (Также известный как постмертм) — это документ, который обобщает ответный ответ, а также возможности для обучения. Все включены классификация инцидента, вклад факторов и подробное описание.

В приведенной выше модели стрелки, работающие между этими практиками, идут оба. Инцидент Retrospected предоставляет руководство для улучшения вашего инцидента. Вы будете использовать его, чтобы просмотреть, что сработало, что не так и почему. Ретроспективная также помогает определить, как развитие может разрешить инциденты с элементами действий. Кроме того, узоры в инцидентах могут помочь определить проекты развития, которые могут улучшить надежность .

Ищете шаблоны в данных для улучшения надежности, необходимы для Sre. Там, где ответ инцидент предусматривает реактивные подходы для надежности, данные обеспечивают активные подходы. Давайте начнем строить другую половину нашей модели, чтобы включить это представление о проактивном обучении:

С Инструменты мониторинга , вы можете собирать данные о том, как работает ваш сервис. Эти данные могут включать, насколько быстро реагирует ваш сервис, как часто это недоступно, и насколько точны его ответы. Если инструмент мониторинга обнаруживает основное нарушение в этих метриках, он может вызвать предупреждение. При компиляции ретроспективных данных мониторинга данных может обеспечить проницательный контекст. Команды развития также могут просмотреть данные мониторинга для решения будущих проектов.

Но только необработанные данные не могут принять эти решения. Вы должны решить именно тогда, когда срывов достаточно, чтобы вызвать предупреждение. Установка этих порогов включает в себя еще один необходимый инструмент SRE: цели уровня обслуживания, как показано на диаграмме ниже.

Объектив уровня обслуживания или SLO устанавливает порог для приемлемости данных мониторинга. Иногда это будет метрика на основе нескольких контролируемых метрик. Например, вы можете иметь SLO-набор, который требует всего вашего сервиса, которая будет доступна 99,9% времени, через каждый 30-дневный период. Чтобы определить это, инструменты мониторинга проведут доступность нескольких подсердов. Соответствующее Бюджет ошибок Предоставляет бы график прокатки, показывающий доступность услуги за последние 30 дней.

Словы также имеют двусторонние отношения с развитием. Обратная часть SLO — это бюджет ошибок — если услуга требует 99,9% времени безотказной работы, то он также позволяет 0,1% времени простоя. Если новый проект развития влияет на доступность, что воздействие влияет на бюджет ошибки. Затем SLO становится инструментом, чтобы понять, когда ускорить или замедлить развитие на основе оставшегося бюджета ошибок.

Когда SLO нарушен, срабатывает инцидент. Другие инциденты также влияют на SLO. С нашей наличием примером, если инцидент вызвал время простоя, он потребляет некоторые из бюджета ошибок. Это позволяет размещать инциденты в более широкий контекст общего воздействия на ваш сервис.

Наша модель почти завершена, но есть еще один существенный фактор:

Набор метрических мониторов SLO — это индикатор уровня обслуживания или SLI. Придумать хорошие SLIS, Войдите в разум вашего клиента Отказ Одним из самых ценных аспектов SRE является преобразование воздействия клиентов на что-то измеримое и действенное Отказ Удовлетворение клиента основано на сервисе. Метрики наиболее подвержены их удовлетворению, становятся SLIS. Их больные очки становятся порогами для SLO.

Наша базовая модель надежности завершена. Факторы, важные для удовлетворенности клиентов, установите пороговые значения для надежности службы. Эти команды SLOS помогают команды, управляемые данными о том, как приоритетировать плановую и незапланированную работу, для лучшего защиты опыта клиентов. Когда происходит инциденты, они решаются через систему ответных инцидентов. Инцидент ретроспектива преобразует инцидент на уроки для улучшения системы реагирования и будущего развития. Наша модель надежности не только показывает, как SRE укрепляет надежность сервиса. Это помогает изучить поток в развитие как от обратной связи и инцидентов клиентов.

Попробуйте создать свою собственную модель надежности на основе этого руководства. Для каждого шага вы можете добавить конкретные инструменты и команды, которые будут использовать вашу организацию. Для каждой стрелки думайте о том, как вы хотите передать информацию. Некоторые способы связи включают в себя:

* Slack Channels * Slack Botts, которые отправляют оповещения * Отчеты или другие документы * Виртуальные встречи * Новости по электронной почте * Общий доступ к инструменту * Совместные рассмотренные документы

Имея модель также отличный способ увидеть, как новые инструменты или процессы будут интегрироваться в вашу существующую среду. Попробуйте добавить эти новые варианты в свою модель и посмотрите, какие соединения вы сможете сделать. Когда вы добавляете соединения, рассмотрите, какая информация может помочь каждому процессу. Моделирование позволяет оптимизировать, а также исследовать новые способы обмена информацией в вашей организации.

Если вам понравился этот блог, проверьте эти ресурсы:

Автор: Эмили Арнотт

Оригинал: «https://dev.to/blameless/how-to-construct-a-reliability-model-for-your-organization-566g»