Первоначально опубликовано на Ошибка неизбежна Отказ
Черная пятница — мы все знаем, как выглядит. Сотни людей росяты магазины после благодарения, взыскали на лучшие предложения. Но в свете Covid-19 эта договоренность может быть опасной.
За последние несколько лет Черная пятница стала цифровым событием, и этот год должен быть даже Moreso. По словам Forbes Писатель Ричард Кестенбаум, » 88% мировых потребителей рассказали визовое исследование, которое они планируют купить подарки в этот праздничный сезон .» Тем не менее, «только 20% потребителей США планируют делать покупки исключительно в магазине, в то время как почти третий план делать большинство покупок в Интернете .»
Это в основном цифровое черное пятничное событие будет означать ритейлеры, должно быть на вершине их игры. С Стоимость простоя В минуту, как $ 220,318.80 (Amazon) и $ 40 771.20 (Walmart), отходы дорогие.
Итак, как мы готовимся, когда системы растягиваются до их предела в это время года? В этом посте в блоге мы осмотрим, как обрабатывать Черную пятницу, которая в отличие от любого другого, мы видели до сих пор. Мы рассмотрим, как SLO на основе предупреждающих, Runbooks и другие практики для готовности к вождению имеют решающее значение для успеха курортного сезона.
Согласно опросу, мы провели почти 300 профессионалов отрасли, 60% респондентов заявили, что создание лучших процессов мониторинга и оповещения было одним из основных факторов, водительных в своем усыновлении SLO. . Что же опрос также указал, что Почти 80% организаций указали, что они уже используют SLOS, или планируют при этом в течение следующих 1-2 лет . Будьте настроены на полный отчет в ближайшее время!
SLOS являются важным инструментом для любой организации, принимающей SRE. Но они делают больше, чем помощь командам определяют компромиссы между инновациями и надежностью. Они также ключ для настройки предупреждений на основе SLO, который является наиболее высоким сигналом для мобилизации команды Responder.
Улучшение вашего отношения сигнал-шума особенно важно в этом году. Как Forbes Отметил, — «Walmart говорит, что ожидает треть своих клиентов начать покупки на праздник к началу ноября. «Это означает повышенный трафик в течение более длительного периода времени, что приводит к выгоранию. Не устойчиво работать круглосуточно, чтобы разрешить инциденты. Вам нужен умнее, более высокий контекстный способ предупреждать и уведомлять команды. Оповещение по ошибке Бюджетная скорость сжигания в течение определенного периода времени обеспечивает лучший показатель, когда ваши команды должны прыгать по проблеме, чтобы защитить опыт клиентов.
По Приспособление оповещения к SLOS , вы можете сократить усталость оповещения вашей команды. Удаление усталости Является страшной реальностью для многих инженеров. Это происходит, когда слишком много оповещений стрельбы, и только некоторые актуальны. Этот шум ведет инженерам, чтобы игнорировать большинство или все оповещения. Традиционное оповещение — один виновник за усталостью. Пороги оповещения могут потребоваться частое калибровка, но редко регулируются.
Как пишет Найл Мерфи в главе 8 Реализация целей уровня обслуживания «Самый простой способ понять это — подумать о небольшом, но постоянно растущем онлайн-бизнесе. Если мы скажем, что ваш бизнес вырастет 4-10% в квартал — фигура вдали от неизвестных для успешных операций — тогда в течение того, что в течение года она уехала от 100% от того, что он в настоящее время делает в любом месте между 116% и 146%, как показатель. 8-1 иллюстрирует ».
«В качестве примера, скажем, в январе вы выполняете 100 QPS, и вы выбрали 90 QP в качестве значительного порога. В конце декабря, учитывая 4% квартальных темпов роста, вы теперь выполняете 116 QPS, как показано на рисунке 8-1. Проблема в том, что ваш абсолютный порог все еще застрял на 90 QPS! »
Представьте, что, а не ежеквартальный рост, мы смотрели значительное увеличение трафика в течение короткого периода времени. Ваша система устанавливается, чтобы предупредить вас, когда вы попадаете на 90 QPS (запросы в секунду). Если на Черную пятницу вы оказываете себя 120 QPS, ваше оповещение будет как шумным, так и бесполезным. Даже если ваша система работает нормально, вы будете бомбардированы.
SLOS предлагает другой способ, который ставит предупреждение в контексте реального опыта пользователей. С SLOS вы получите только оповещения, когда вам нужно вмешаться. Установив SLO и предупреждение о скорости сжигания соответствующего бюджета ошибок, у вас есть лучший вид на производительность вашего сервиса, относительно того, что приемлемо для пользователей. Например, ваше традиционное оповещение уведомляет кого-то, когда система обрабатывает более 90 QPS. Но вы обрабатываете 120 штрафов QP на то время. Вам не нужно это предупреждение.
Кроме того, вместо того, чтобы мониторинг QPS, лучшего, более ориентированного на клиента метрика для мониторинга может быть нечто вроде задержки или доступности. Возможно, вы знаете, что когда QPS превышает 90, ваша латентность страдает. Но какой уровень задержки ваши клиенты терпят?
Если ваша задержка выходит от 2,5 секунды до 3 секунд, вы усудитесь клиентам? Ваш SLO может утверждать, что любые запросы, которые займут более 4 секунд, считаются «плохими» запросами. Это означает, что до тех пор, пока ваши страницы загружаются в течение 4 секунд большую часть времени, вам не нужно получать оповещения или установить мониторинг для QPS.
По словам Исследование Проводится опрос Harris от имени Google, « почти девять в десяти респондентов (86%) заявил, что их компания имеет четкую систему, которая отображает каждый процесс или систему с его потенциалом для снижения производительности сайта. «Тем не менее,« только половина (52%) респондентов заявила, что они были очень уверены в общем пиковой готовности своей компании. Менее половины сказали, что они были очень уверены в скорости своего сайта (42%) и масштабируемость (45%), входящих в Черную пятницу и кибер понедельник ».
Итак, как командам лучше подготовиться к неизбежному провалу? Runbooks являются отличными инструментами для команд, которые хотят кодифицировать процедуры ответа на инциденту. Они также уменьшают племенные знания или знания, которые живут без документов в сознании инженеров. Эти списки шагов и проверки предоставляют ценную информацию для инцидентов-респондентов.
Руковены должны содержать:
- Карта вашей системы архитектуры: С увеличением микросервисов и зависимостей в ваших системах его можно затруднить увидеть, как слои вашей системы подключаются. Карта вашей системы архитектуры может помочь инженерам изменить то, что еще больше усугубляет системные проблемы. Это также может быть полезно для визуализации проблем и вывод, где факторы могут быть скрыты.
- Владельцы услуг и контактная информация/Протоколы: Когда происходит инцидент, и команда на вызове начинает сортировку, важно, чтобы они знали, кто поощряет инцидент, и когда. Хорошая Runbook должна показать лицу на звонок для каждого сервиса, а также как добраться до них. Он также должен показать, какую серьезность, которую команда отвечает в течение определенного диапазона времени.
- Ключевые процедуры и задачи контрольного списка: Руководительные книги были бы неполными без списка шагов и проверяют, чтобы проверить инженера через процесс разрешения. Эти шаги и проверки часто создаются от опыта. Они служат документацией для подобных инцидентов и сохраняют инженеров от необходимости доработки.
SLOS также может вызвать Runbooks. Если вы сжигаете бюджет ошибок и предупреждающие состояния, которые, вероятно, вы будете превышать его в течение следующей недели, ваша бенкт будет отличаться от предупреждения о том, что вы превысите свой бюджет ошибок в течение следующих часов. Имея тщательные и современные рутины, вы можете уменьшить лицензионные инженеры нагрузки, когда они имели дело с инцидентом.
Инциденты обязательно произойдут, независимо от того, насколько хорошо вы готовите к Черной пятнице. И в этом году мы увидим повышенные уровни трафика в течение длительного периода времени. С этим приходит риск выгорания инженера. Чтобы обожаться этому, имейте в виду две вещи:
Смягчение выгорания Выгорание происходит. Те, кто поддерживает системы, находятся под чрезвычайным давлением, чтобы сохранить вещи функционировать.
Убедитесь, что вы смягчаете выгорание, поощряя всех в команде, чтобы понять время, что им нужно. Это означает, что поощряет их отпустить, даже если это просто пребывание. Бюджеты SLOS и ошибок могут даже помочь с этим.
Alex Hidalgo сайты отпуска мониторинг отпуска как один из способов использования бюджетов ошибок в его книге Реализация целей уровня обслуживания Отказ «Вы могли бы установить бюджет ошибок на дни отпусков, используемые в окне времени, чтобы убедиться, что вы, по крайней мере, проверяете тех, кто не использует свои дни по случаю. Никто никогда не должен быть вынужден взять отпуск, но, используя несколько простых бюджетированных математиков, чтобы зарегистрироваться с теми, кто, скорее всего, не плохая идея. Разрывы от работы важны. «
Помимо использования бюджетов об ошибках, чтобы определить, когда члены команды могут потребоваться перерыв, также важно зарегистрироваться. Во время 1-1 менеджеры должны попытаться устранить уровень выгорания. Подумайте об опросах команды как другой вариант. Выгорание, если нерешено, может быть так же вредным для команд в качестве инцидентов.
Позвоновите сострадание Находясь на звонок за это время может прийти с дополнительным стрессом. Когда организации имеют дело с увеличением инцидентов, командам по вызовам часто принимают валют работы. Важно решить уровень стресса на вызове, ваша команда переживает.
Один из способов сделать это — смотреть на Качественные данные по вызовам данных а также количественный. Кроме того, за пределы инженеров времени расслабиться, обязательно Подарите kudos к команде на звонке Отказ Празднуйте успехи команды по вызову, подчеркивая, что члены команды вызовов должны были столкнуться. Инциденты на вызове могут начаться и зайти за одну ночь, оставив других, не знают, и ответчики чувствуют себя неповрежденными. Признавая усилия по вызову могут помочь мотивировать инженеров и уменьшить выгорание.
Черная пятница в этом году длиннее и более «цифровым», чем когда-либо, вкладывая больше требований к инженерным группам, чтобы быть более подготовленным, чем когда-либо прежде. SLOS и другие лучшие практики SRE могут помочь вам управлять оповещениями, подготовиться к инцидентам и смягчить выгорание в течение этого времени года.
Если вы хотите узнать больше о том, как команды используют лучшие практики SLOS и SRE, оставались настроенными для эксклюзивных «SLO погашения и отчет о усынализации SRE». «Следуйте за нами на LinkedIn или Twitter быть первым, кто узнает, когда этот отчет пойдет в прямом эфире.
И, если вам нужна помощь подготовки к Черной пятнице, не поздно. Мы предлагаем Ограниченное время с ограниченным временем с расширенными испытаниями в ноябре и декабрь 2020 года Так что любая команда может начать повысить их готовность во время этого праздничного сезона. Нажмите здесь Чтобы запланировать демонстрацию нашей команды.
Оригинал: «https://dev.to/blameless/the-engineer-s-guide-to-preparing-for-black-friday-2020-55j0»