Приступая к вашему путешествию в SRE, может показаться пугающим расшифровать все аббревиатуры. Что такое SLO против SLAS? В чем разница между SLIS и SLOS? В этом сообщении мы рассмотрим, что означают SLI, SLO и SLA и как они способствуют вашим целям надежности.
Ниже приведены определения для каждого из этих терминов, а также краткое описание. Определения в соответствии с Google SRE Справочник Анкет SLI: «Тщательно определенная количественная мера некоторого аспекта предоставляемого уровня обслуживания». SLIS являются количественной мерой, обычно предоставляемой через вашу платформу APM. Традиционно они относятся к задержке или доступности, которые определяются как время отклика, включая время очереди/ожидания, в миллисекундах. Коллекция SLIS, или Composite SLIS, представляют собой группу SLIS, приписываемая большему SLO. Эти индикаторы являются баллами в цифровом путешествии пользователя, которые способствуют опыту и удовлетворенности клиентов.
Когда разработчик устанавливает SLIS, измеряя свой сервис, они делают их на два этапа:
- SLIS, которые напрямую повлияют на клиента.
- SLI, которые напрямую влияют на здоровье и доступность или задержку и производительность определенных услуг. После того, как вы настроите SLIS, вы переходите в свои SLOS, которые являются целями против вашего SLI.
SLO: «Целевое значение или диапазон значений для уровня обслуживания, который измеряется SLI. Таким образом, естественной структурой для SLOS является мишень SLI ≤ или нижняя граница ≤ SLI ≤ верхняя граница ». Цели уровня обслуживания становятся общим языком, который используют компании, что позволяет командам устанавливать ограждения и стимулы для повышения надежности обслуживания.
Сегодня многие компании работают в постоянно реактивном режиме. Они реагируют на оценки NPS, отток или инциденты. Это дорогое, неустойчивое использование времени и ресурсов, не говоря уже о потенциально неурешимом ущербе удовлетворенности клиентов и бизнесу. SLO дают вам объективный язык и меру того, как определить приоритеты в надежности для упреждающего здоровья обслуживания.
! [Alt Text] ( https://dev-to-uploads.s3.amazonaws.com/i/cougd0kks1q1rz2g5q89.png
SLAS: «Явный или неявный контракт с вашими пользователями, который включает в себя последствия встречи (или отсутствия) СЛОС, которые они содержат». Соглашения об уровне обслуживания устанавливаются бизнесом, а не инженерами, SRES или OPS. Когда что -то случается с SLO, SLAS входит; Это действия, которые предпринимаются, когда ваш SLO терпит неудачу и часто приводит к финансовым или договорным последствиям.
Представьте, что организация стремится повысить надежность. Компания недавно начала расследование дорогих нарушений SLA и хочет знать, почему ее надежность страдает. Эта организация нарушает свою SLA для доступности почти каждый месяц. По мере того, как он занимается большим количеством клиентов с SLA, эти расходы могут расти, если они не соответствуют гарантиям производительности.
Эта вымышленная организация также имеет дело с низкими показателями NPS. Команда знает о проблеме, но оценки NPS являются отставающим индикатором по отношению к клиентам, которые уже начали снимать. Команда встретилась, чтобы обсудить, что нужно сделать. Первым шагом к этому является разрушение SLIS компании.
Определение SLI, которые имеют значение для пользователя Команда знает, что необходимо изучить доступность и установить для нее SLO, поэтому она начинает смотреть на путешествие пользователя. Команда QA уже сделала некоторую документацию, поэтому команда ссылается на поездка пользователей, изложенные там и дополняет эту документацию своими собственными путешествиями.
Команда определяет критические моменты, которые получают основной удар жалоб. Члены команды также изучают мониторинг черного ящика, тактику, которая помогает выявлять проблемы с точки зрения пользователя. Благодаря мониторингу черного ящика команда выступает в качестве внешнего пользователя службы без доступа к инструментам внутреннего мониторинга. Это позволяет членам команды сосредоточиться на нескольких метрик, которые напрямую коррелируют с счастьем пользователя.
Посмотрев на путешествие своего пользователя, команда определяет, что отдельные страницы загрузки каждой вкладки на функцию расходов не загружаются медленно индивидуально, но когда кому -то нужно просмотреть 2 или более страниц, это становится утомительным. Таким образом, команда также решает создать SLO для времени отклика на балансировщиках нагрузки.
Установление соответствующих SLO После того, как команда определяет свои SLIS, пришло время настроить SLOS. Команда рассматривает доступность сайта (общая жалоба), а также проблему задержки на странице расходов. В то время как команда планирует добавить больше SLO позже, эти двое будут служить морскими свинками.
Для проблемы задержки команда устанавливает SLO для загрузки всех страниц менее чем за 1 секунду. Это более быстрое время загрузки означает, что пользователи не будут раздражены прокруткой на нескольких страницах. Затем команда переходит к SLO доступности.
Исходя из уровня трафика, использования клиентов, результатов NPS, команда определила, что ее клиенты, вероятно, будут довольны доступностью 99,5%. С другой стороны, данные за предыдущие месяцы предполагают удовлетворенность клиентов, и использование, по -видимому, не увеличивается, когда время безотказной работы превышает 99,9%. Это означает, что на этом этапе нет причин оптимизировать более высокий показатель 99,5%.
С SLOS на месте команде нужно будет работать над тем, что делать, если эти цели будут пропущены путем создания политики бюджета ошибок. Эта политика будет подробно описана:
- Приемлемый уровень отказа в системе в течение определенного периода времени (бюджет ошибок)
- Оповещение и процедуры по вызову для политик эскалации услуг в случае истощения бюджета ошибок
- Соглашение о прекращении разработки функций и сосредоточенности на надежности после определенного количества времени, когда бюджет ошибок превышен.
Как только все согласны, SLO запускаются. Команда тщательно наблюдает и повторяет на ежемесячном заседании бюджета ошибок. Через несколько месяцев команда чувствует себя достаточно уверенно, чтобы добавить больше SLO.
Согласен с SLAS SLAS являются внешней метрикой, поэтому не зацежены так же, как SLO. SLA — это бизнес -соглашение с пользователями, которое диктует определенный уровень удобства использования. Инженерная команда знает о SLA, но не устанавливает их. Вместо этого команда устанавливает SLOS более строго, чем SLA, давая себе буфер.
Например, SLO команды на 99,5% SLO означает, что услуга может снизиться только на 3,65 часа в месяц. Тем не менее, SLA, которую организация подписывает пользователям, указывает, что она должна поддерживать доступность 99%. Это означает, что услуга может снижаться на 7,31 часа в месяц. У команды есть буфер 3,66 часа в месяц. Теперь команда может работать над новыми функциями с ограждениями для надежности. Организация получит выгоду от более счастливых пользователей, и команда обладает уверенностью в инновациях, оставаясь надежным.
При использовании вместе SLI, SLO и SLA являются мощными инструментами, которые позволяют вам обеспечить лучшее для ваших пользователей. Несмотря на то, что это может быть сложно правильно понять эти показатели, культура пересмотра, итерации и безупречности поможет вам достичь ваших целей надежности.
Если вам понравилась эта статья, ознакомьтесь с этими ресурсами:
- Вебинар: внедрение целей уровня обслуживания
- Каковы цели на уровне обслуживания? Уроки выучены
- Как SLIS помогает вам понять потребности пользователей
Оригинал: «https://dev.to/blameless/here-are-the-important-differences-between-sli-slo-and-sla-32cc»