Рубрики
Uncategorized

Безумный книжный клуб: внедрение целей уровня обслуживания, часть 1

В безумие мы ценим каждую возможность, чтобы учиться. Найдите ли время фокусировать пятницы на Atte … Tagged с SRE, DevOps.

В безумие мы ценим каждую возможность, чтобы учиться. Будь то время на фокусировке пятницы, чтобы посетить крутой вебинар или провести ретроспективы за инциденты, потерянные сделки, мероприятия и многое другое, обучение является основным для нашей миссии.

Чтобы узнать еще больше о нашем ремесле, мы решили начать книжный клуб в безупречном. Люди из каждой команды (инженерия, продажи, SRE, маркетинг, продукт, люди и многое другое) присутствовали. Одна из книг, которые мы читали вместе, — не что иное, как Алекс Идальго Реализация целей уровня обслуживания .

Ниже приводится краткое изложение ключевых тем из книги Алекса, наряду с мыслями, которую была у нашей команды во время чтения. В этом сообщении мы рассмотрим первую часть внедрения целей уровня обслуживания «разработка SLO».

Эта вступительная глава охватывает то, что Алекс называет стеком надежности. Стек состоит из трех элементов, которые строятся поверх друг друга: SLI, SLO и бюджеты ошибок. Он подробно описывает, почему эти элементы важны. Как пишет Алекс: «Неважно, если вы можете указать на нулевые ошибки в своих журналах, или идеальные показатели доступности, или невероятное время безотказной работы; если ваши пользователи не думают, что вы надежны, вы не».

Суть в том, что надежность в глазах пользователя. SLIS, SLO и Бюджеты ошибок — это только инструменты, которые помогут вам предоставить уровень обслуживания, которые ожидают ваши пользователи.

Алекс также подчеркивает, что Цель надежности — не на 100% безоговорочное время Анкет Как он заявляет, «не только невозможно быть идеальным, но и затраты как в финансовых, так и в человеческих ресурсах, когда вы ползти ближе к масштабе совершенства в чем -то намного круче, чем линейно».

Вместо этого мы должны стремиться к достаточно хорошему. Этот уровень сервиса делает пользователей счастливыми и дает инженерам возможность делать ошибки и учиться.

В этой главе Алекс объясняет, что надежность значит для пользователей, а также какие разумные ожидания для услуги. Хотя прошлое не всегда может предсказать будущее, важно знать, как выглядит история услуги.

Как сказал Алекс: «Неважно, были ли ваши пользователи счастливы или расстроены вашими услугами в прошлом: важно понять, где вы были и где вы находитесь сегодня».

Никакие услуги не обречено в зависимости от прошлой производительности, и ни один сервис не гарантированно будет работать на том же уровне надежности навсегда. Тем не менее, знание типичного уровня надежности услуги может информировать ожидания клиентов. Например, если у сервиса было очень мало времени простоя, клиенты могут стать недовольными услугами, если отключения станут частыми.

Алекс также отмечает, как важно поделиться своими целями как с внутренними, так и с внешними заинтересованными сторонами. Как он говорит: «Ваши цели только частично полезны, насколько они могли бы быть, если бы они не были обнаружены другими людьми. Прозрачность с вашими пользователями является мощным инструментом ».

Один из членов нашей команды объяснил, как эта глава книги помогла преобразовать то, как он думает о SLO. «Все говорят о SLO, как будто они как бы золотой билет, но Алекс изменил мое мышление. SLIS — самая сложная часть и фундамент «.

В этой главе Алекс оттачивает, как создать SLI, которые коррелируют с счастьем клиентов. Он начинает с того, что изкладывает, как SLIS может сделать для более счастливых пользователей, инженеров и более счастливого бизнеса в целом. Вот основные аргументы для каждого:

  • Более счастливые пользователи: Перемещение вашего внимания от «Что нужно делать системе» на «Что мне нужно, чтобы сделать систему, приведет к более счастливым клиентам.
  • Более счастливые инженеры: «Если вы можете разработать значимые SLIS, единственная причина, по которой вам нужно разбудить кого -то в 03:00, это когда этот SLI не работает правильно».
  • Счастливой бизнес: SLIS помогает инженерам совпадать с бизнес -целями и командами вне инженерии.

Затем Алекс напоминает нам, что, если мы чувствуем себя перегруженными установкой SLIS, мы могли бы их объединить. Он приводит пример этого. «Воплощаются ли полезные нагрузки, которые на самом деле запрашиваются данные?» Оказывается, если вы сможете найти способ измерить это, вы также измеряете: «Ответы в правильном формате данных?» С точки зрения пользователя, вы не можете получить правильные данные, если данные не отформатированы так, как вы ожидаете ».

В то время как Алекс передает очень сложную тему таким образом, что это понятно, установка SLIS может быть проблемой на практике.

Один из безупречных инженеров -персонала описал, почему установка SLIS может быть такой сложной. «Сложность индикатора уровня обслуживания часто находится в его реализации, но чаще всего в его дизайне. Каждая услуга требует предварительного мышления, чтобы проанализировать и разрабатывать то, что представляет индикатор ».

Другой член команды также отметил, почему SLIS может быть так сложно получить право. «Это культурный сдвиг. Вы должны посвятить время с членами разных отделов, чтобы определить, какие поездки пользователей ».

Межфункциональное выравнивание для SLIS является ключевым и играет большую роль в установке SLO и бюджетов ошибок. Алекс обращается к этому в более поздних главах.

Эта глава фокусируется на том, что делает для хорошего SLO. Алекс пишет о том, как установить цели для надежности, а также о том, как справиться с надежностью услуг, которые у вас нет.

При постановке целей надежности речь идет не только о обеспечении наилучшей надежности. В конце концов, лучшее дорого, занимает много времени и сложно. Плюс, вашим клиентам может быть на самом деле не заботиться. Или, если они привыкнут к повышению уровня надежности, вы можете в конечном итоге сделать отключения, которые больше влияют на клиента. Это игра компромиссов.

Как пишет Алекс, «даже если ваш SLO опубликован и обнаружен, люди в конечном итоге ожидают, что все будет оставаться надежным на 99,99%, потому что люди обычно ожидают, что будущее будет выглядеть как прошлое. Даже если это было правдой, что в прошлом все были на самом деле довольны 99,9%, их ожидания теперь выросли ».

Кроме того, важно сохранить импульс счастья клиентов. Один из безупречных SRES сказал: «Люди должны помнить, что ваши SLO есть для удовлетворения клиентов. SLO должен быть ведущим индикатором. Более сложный SLO, основанный на том или ином SLI, не означает, что это хороший SLO. Если ваш бюджет ошибок истощен, но клиенты ничего не говорят, то это, вероятно, бесполезный SLO ».

При настройке SLOS крайне важно помнить, что SLOS могут и будут неправы. Вам нужно будет пересмотреть их со временем. Самым большим признаком того, что ваш SLO не отвечает вашим потребностям, является качественная обратная связь от клиентов. Другой безупречный член команды поделился: «SLO — это процесс, а не проект. Если вы получаете только данные, а не качественную информацию, то у вас все равно будет трудно связаться с болезнями ваших клиентов ».

В этой главе Алекс также раскрывает, как справляться с зависимостями, которые влияют на надежность вашего услуги. » Представьте, что у вас есть 40 компонентов, каждый из которых обещает целевую цель достоверности 99,9% и имеет одинаковый вес с точки зрения того, как это может повлиять на надежность коллективной службы. В таких ситуациях услуга в целом может обещать только гораздо меньше 99,9% надежности… Таким образом, 40 компонентов обслуживания, работающие на уровне 99,9%, может гарантировать, что услуга, состоящая из этих компонентов, может быть надежным на 96% ».

Вам нужно будет учитывать такие зависимости, как это при установке целевых показателей надежности. Алекс также отмечает, что это отличный инструмент принятия решений в оценке всех инвестиций, поддерживающих вашу деятельность. Подумайте, что нужно вашему клиенту. Если пользователям нужна надежность 97,5%, то ваша надежность 96% не удовлетворит. Поскольку ваши зависимости не позволяют вам оптимизировать для необходимой вам надежности, вы можете использовать это в качестве руководства для покупки новых поставщиков и переоценки контрактов.

SLO отлично подходят для того, чтобы стимулировать принятие решений, управляемых данными, не только для обсуждений с поставщиками. Алекс вступает в использование SLO, чтобы вести беседы в следующей главе.

Бюджеты ошибок великолепны, но знаете ли вы, что можете использовать его для не только просто балансировать функции с надежностью? В этой главе Алекс описывает множество приложений бюджетов ошибок, а также то, как они выглядят на практике. В то время как инновации и надежность обрезки являются ключевым вариантом использования , это, конечно, не единственный.

Алекс также рассказывает о том, как бюджет ошибок может быть преднамеренно сгорел, чтобы приспособить ценные формы экспериментов, такие как инженерия хаоса, тестирование нагрузки и многое другое. Они даже могут быть наняты, чтобы помочь людям взять достаточно отпуска или помочь обеспечить завершение билетов в определенные сроки. Все эти приложения помогают поддерживать команды на одной странице и осознавать, как обстоят дела со временем.

Однако наиболее важным применением бюджета ошибок является основа для общения. Как пишет Алекс, «использование бюджетов ошибок для принятия решений является признаком того, что зрелость культуры SLO в вашей организации достигает высоких уровней».

Тем не менее, достижение этого уровня зрелости очень сложно, так как захватывание данных временных рядов может быть легче сказать, чем сделать. SLO и бюджеты ошибок являются итеративным процессом; Чтобы они были успешными, они понадобится точная настройка с течением времени. Мало того, что их практически невозможно получить с точки зрения первой попытки, но и со временем ваш сервис также изменится. Даже когда команды достигают высокого уровня зрелости, произойдут инциденты или неожиданные события. Бюджет ошибки будет употреблен. Но, как напоминает Алекс, это нормально.

После прочтения части 1 о Реализация целей уровня обслуживания Наша команда стремится продолжить чтение, размышление и обучение. Алекс многому научил нас, вдохновлял большие дискуссии и принес домой самую важную концепцию: Клиент всегда прав.

Если вам понравился этот пост в блоге, проверьте эти ресурсы:

Оригинал: «https://dev.to/blameless/blameless-book-club-implementing-service-level-objectives-part-1-3hlh»