Автор: Эмили Арнотт
Первоначально опубликовано на Ошибка неизбежна Отказ
Chaos Engineering — это практика, где инженеры моделируют неспособность видеть, как реагируют системы. Это помогает командам активно определять и исправлять профилактические вопросы. Это также помогает командам готовить ответы на виды вопросов, которые они не могут предотвратить, такие как внезапные аппаратные сбоя. Цель хаоса инжиниринга заключается в улучшении надежности и устойчивости системы. Как таковой, это неотъемлемая часть зрелого решения Sre.
Но интеграция инжиниринга Chaos с другими инструментами и практиками SRE может быть сложной. Чтобы получить максимально из ваших экспериментов, вам нужно связать учащиеся во всех ваших практиках надежности. Вам также необходимо отрегулировать свой хаос инжиниринг в качестве масштабов вашей организации. В этом сообщении мы рассмотрим:
- Как инженерно-хаус и хаос инженерно
- Лучшие практики для инженерии Chaos
- Как выглядят эксперименты на разных уровнях зрелости
Понятно, как целы Sre и Chaos Engineering выравниваются. Обе практики побуждают команды создавать устойчивость к их системам. Но соединения не останавливаются там. Многие практики SRE интегрируют с Хаосом Инжинирингом для повышения эффективности обоих. Ниже приведены несколько примеров.
SLOS AS CHAOS Engineering Ambboards При работе в области инженерных экспериментов Chaos важно определить, насколько влиятельна гипотетический провал. Это может быть сложно.
Рассмотрим тест, который показывает, что целый сервис будет отключен, если определенный сервер не удается. Вы оцениваете, что это займет час или около того, чтобы вернуться к нормальной работе. Звучит страшно, но что, если эта услуга использовалась только крошечной долей ваших клиентов?
Другой тест может показать, что, когда трафик превосходит определенный порог, страница, доступная каждым клиентом нагрузки на 3 секунды медленнее. Этот сценарий может иметь больше воздействия клиентов, чем другое. Команды захотят сначала сосредоточиться на решении этой проблемы.
SLOS позволяет сравнивать эти сценарии с использованием наиболее важной метрики: воздействие клиентов. SLIS, или Индикаторы уровня обслуживания , построены из метрик обслуживания, которые имеют значение для клиентов. SLOS, или Цели уровня обслуживания Показать уровень неудачи, которые клиенты будут терпеть.
Когда вы управляете экспериментами Chaos, вы можете определить, как эксперимент повлияет на SLO. Это дает вам трехстороннюю модель для уроков разных экспериментов. Затем вы можете сосредоточиться на предотвращении инцидентов, которые больше всего повлияли на SLO.
Chaos Engineering как Runbook Bootcamp Важно имитировать влияние гипотетического провала и работы, чтобы предотвратить его. Но все еще будут инциденты, независимо от того, сколько экспериментов мы бегаем. Chaos Engineering также дает команды пространство для практики мер реагирования. Это может помочь респонденторам работать быстрее и с большим уверенностью во время настоящего инцидента.
В SRE инцидентные ответы закодифицируются как Runbooks. . Это направляющие разбиты на модульные проверки и шаги. Где это возможно, Runbooks автоматизированы экономить труд. Конечно, Runbooks никогда не могут быть идеальными. Регулярный обзор необходим для обеспечения того, чтобы вся информация была обновлена и всеобъемлющей.
Chaos Engineering может помочь улучшить Runbooks, предоставляя больше возможностей для их оценки. Команды не будут использовать Runbooks, обращаясь к типу редкой, часто катастрофического провала. Когда сбой происходит, ваша команда должна будет знать, что она может доверять Runbook. Бегите эксперименты на хаос этого сценария, вы найдете потенциальные камнические блоки.
Руководства также могут служить вдохновением для экспериментов Хаоса. Если RunBook был «сбор пыли», вы можете разработать эксперимент, чтобы использовать его в использовании. Это обеспечит актуальную информацию с вашей системой и все еще полезным.
Строительство библиотеки инженерных ретроспективах Chaos Ценный инструмент в вашем ремне инструментов SRE является Инцидент ретроспектива Отказ Это документ, построенный команды, отвечая на инцидент. Он содержит вредную шкалу, ключевые коммуникации, последующие действия и многое другое. Инцидент ретроспективы образуют ценный центр знаний. Они неоценимы для бортовое и развитие культуры непрерывное улучшение Отказ
Chaos Engineering может помочь создать свою библиотеку ретроспективах. Команды должны писать ретроспективы о экспериментах Хаоса, поскольку они будут на реальный инцидент. Включите детали о том, почему и как эксперимент был проведен тщательным. Обзор этих ретроспективах может обеспечить те же полезные идеи как реальный инцидент.
И наоборот, инцидентные ретроспективы могут мотивировать хорошие эксперименты на хаос. Представьте себе, что ваша команда сложилась реагировать на конкретный инцидент. Рецензирование ретроспективы инцидентов показало, почему команда наткнулась. Ваша команда создает план для инцидентов, как они движутся вперед. » Воспроизведение «Инцидент даст вам прямое сравнение между новыми и старыми методами. Это может помочь вам избежать одинаковых ошибок.
Поскольку организации растут в зрелости, приняв хаос инжиниринг в качестве практики обеспечивает больше возможностей. Но есть также проблемы. Эта диаграмма нарушает то, что ожидать на каждом этапе.
Независимо от того, какой погашение ваша организация, лучшее время, чтобы попробовать Chaos Engineering сейчас. Чем раньше вы можете построить эксперименты в свои процедуры, тем больше времени вам придется разработать свой опыт.
Blubesseless может помочь вам максимально использовать свои эксперименты по проектированию хаоса. Наша документация SLO, Runbook и инцидентные ретроспективные инструменты могут помочь вам получить максимальную отдачу от каждого эксперимента. Чтобы увидеть, как, проверьте Демо Отказ
Если вам понравилось этот блог, посмотрите эти ресурсы:
- Электронная книга: полное руководство по прагматичному инциденту ответа
- Подст: Тэмми Брайант и Эрик Робертс Важность замыкает
- Панель лидеров Sre: тестирование в производстве
Оригинал: «https://dev.to/blameless/it-s-all-chaos-and-it-makes-for-resilience-at-scale-1leb»