Первоначально опубликовано на Ошибка неизбежна Отказ
Реализация практики и культуры SRE могут быть сложными. К счастью, есть множество инструментов для каждого аспекта SRE: мониторинг, SLOS и бюджета по ошибкам, управление инцидентами, ретроспективами инцидентов, оповещения, хаос и многое другое. В этом блоге мы поговорим о том, что искать в инструменте SRE, и как они помогут вам в вашем путешествии к превосходству надежности.
В основе всех принятия решений SRE есть данные. Без задержки регистрации, наличие и другие метрики надежности на протяжении всей вашей системы у вас не будет никакого способа узнать, где инвестировать свои усилия по развитию. Ряд Инструменты мониторинга Такие как Appdynamics, Datadog, Grafana и Premetheus доступны для того, чтобы помочь собрать эти данные и отображать его эффективными способами.
Мониторинг может быть разбит на четыре основных категория:
- Мониторинг ресурсов: Отчеты о том, как серверы работают с метриками, такими как использование RAM, нагрузка CPU и оставшееся дисковое пространство.
- Мониторинг сети: Отчеты о входящем и исходящем трафике, которые могут быть разбиты на частоту и размер конкретных запросов.
- Мониторинг производительности приложений: Отчеты о выполнении услуг, отправляя внутренние запросы им и мониторинга метрик, таких как время отклика, полнота реагирования и свежесть данных.
- Сторонний компонент Мониторинг: Отчеты о здоровье и наличии сторонних услуг, интегрированных в вашу систему.
Чтобы получить полную фотографию вашего сервиса, вы захотите включить элементы всех четырех из этих категорий. Большинство инструментов мониторинга предоставит варианты для нескольких категорий. Ищите те, которые хорошо интегрируются с вашим существующим стеком инструмента, поскольку вам понадобится инструмент мониторинга, который сможет собирать и интерпретировать данные непосредственно из ваших существующих источников. Попробуйте найти инструменты, которые могут генерировать визуализации и сообщать о том, что ваша команда будет находить полезную. Например, если вы пытаетесь увидеть, какие службы генерируют наибольший сетевой трафик, ищите инструмент, который может создавать круговые диаграммы общего использования сети.
После того, как на месте мониторинга нет лучшего способа поставить эти данные на работу, чем построение бюджетов SLOS и ошибок вокруг них. Выбирая Индикаторы уровня обслуживания С самым высоким влиянием клиентов SLOS может безопасно расширить возможности развития ускоряться.
Инструмент SLO должен помочь с:
- Консолидация данных мониторинга в индикаторы уровня обслуживания, объединяя несколько источников в одно измерение.
- Уполномочение возможности вас установить пороговые значения для этой метрики со временем, такими как общий объем простоя в месяц.
- Диктовая политика должна быть принята, когда метрика превышает эти пороги, интегрируя в инструменты оповещения и совместной работы.
Инверсия SLO — это бюджет ошибка: количество помещения, оставленного на SLO перед превышением порога. Команды разработки могут использовать этот бюджет ошибок, чтобы безопасно двигаться вперед на проекты, которые могут повлиять на SLOS, уверены, что они не будут наступить на линию. Поскольку ваш бюджет SLO и Budge будут ключевыми инструментами принятия решений в решениях в разработке решений, найдите инструменты, которые могут четко отображать изменения со временем.
При реагировании на инциденты самый ценный ресурс — ваша команда. Тем не менее, команды также являются истощаемыми ресурсами. Оповедочные инженеры слишком часто приводит к выгоранию и Удаление усталости Отказ Установка справедливых расписаний на вызове и должным образом присвоение владения услугами может быть сложным, но инструменты оповещения помогут вам оставаться организованным и последовательным. Лучшие инструменты оповещения включают Pagerduty, Opsgenie и Victorops.
Наиболее важной функцией инструмента оповещения является надежность. Это кажется очевидным, но не следует упускать из виду. Убедитесь, что ваш инструмент оповещения может достигать вашей команды на любых платформах и устройствах, которые они наиболее привыкли использовать. Аналогичным образом, ваш инструмент оповещения должен интегрироваться с вашими службами мониторинга, чтобы наблюдения могли автоматически запускать оповещения.
Планирование по вызову является еще одной задачей, которая становится сложным, когда вы учитываете собственность на собственность и балансирование нагрузки. Инструменты оповещения могут помочь создавать календари вокруг пользовательских ролей и команд и регистрацию ответов, чтобы помочь качественно оценить нагрузку. Это гарантирует, что вы принимаете Люди — первая система на вызове Отказ
Ошибка неизбежна. Всегда будут непредсказуемые инциденты, которые требуют новых ответов. В мышлении СРР инциденты не являются сбоями или неудачами, а незапланированные инвестиции в надежность.
Хороший инцидент ответ включает несколько компонентов, каждая из которых может быть оказана помощь в таких инструментах, как безупречный, Pagerduty, Opsgenie и ServicEnow:
- Оценка и приоритетность через Классификация инцидента
- Подготовленные ответы на основе классификации, в том числе Runbooks.
- Оповещение и эскалация, чтобы получить правильные люди, связанные с коммуникацией и ролью координацию
- Регистрация и документирование ответа на ретроспектива инцидент
- Обучение от ретроспективного и интеграция его в дальнейшее развитие
Чтобы получить максимальную отдачу от ваших инцидентов, найдите инструменты, которые уменьшают когнитивную нагрузку в каждой из этих областей. Чем быстрее и проще для реагирования инженеров использовать ваши инцидентные протоколы, тем больше вероятность их использовать. Автоматизирующим процедурами на основе классификации инцидента, вы сможете кодифицировать процедуры ответа на инциденту, получаю ремонт услуг быстрее.
После заканчивается инцидент, возможность обучения только началась. Sre Tools, которые помогут вам построить тщательные и значимые инцидентные ретроспектива, дадут вам превосходный фундамент для рассмотрения и роста. Ищите инструменты, которые автоматически собирают полезные данные, включая соответствующие метрики, используемые ресурсы, и связь между членами команды. Конечный результат должен быть всеобъемлющим, доступным и повествовательным документом, который реализует наш лучшие практики . Каждая инцидентная ретроспектива расскажет историю инцидента, что делает его ценным ресурсом для бортовых новых SRES, создавая игровые дни, чтобы стресс-тестировать систему и строить устойчивость и многое другое.
Многие команды сотрудничают на пост-инцидентах отзывы через редакторов, такие как Google Docs и Confluence; Раствор, как Blumeless, также может централизовать метаданные от отзывов пост-инцидента за легкую отчетность на объектах, такими как теги, следующие элементы действий и многое другое. После того, как у вас есть документ, инструменты SRE могут помочь вам интегрировать последующие элементы в обычные циклы развития. Это помогает командам гарантировать, что инциденты не повторяют себя, и этот приоритетные проблемы обрабатываются как можно больше внимания, как работа. Это также информирует SLOS, поскольку последующие действия могут включать в себя увеличение мониторинга в определенных областях проблемы, чтобы получить ранние предупреждения будущих проблем, прежде чем они станут лицом к клиентам.
Эти культурные уроки инцидентных ретроспективами так же важны, как реализация практики. Инструменты не могут изменить одну культуру, но и опыт использования инструментов и просмотр данных, которые они предоставляют. Позаботьтесь о том, что ваши инструменты отражают этапы и продуманные процессы, которые способствуют эмпатической культуре в ответ на инциденты.
Chaos Engineering — это ученик, практикующий для тестирования устойчивости. Инженерные инструменты Chaos, такие как Gremlin и Chaos Monkey Monkey, смоделируют отключения, интенсивные серверные нагрузки или другие кризисы, которые могут поставить под угрозу надежность. Эти эксперименты проходят в небольших средах реплики без последствий к живой сборке сервиса. Тем, как будто инцидент реальны, так как инцидент реальна, тестирование, чтобы увидеть, эффективны ли их процедуры. Мониторинг моделируемых систем показывает, как реальные системы будут тариться в аналогичных условиях.
Чтобы быть эффективным, инженерный инструмент Chaos должен повлиять на системы, как если бы это была настоящая внешняя угроза. Это требует обширной интеграции инструмента на всю вашу систему, так как ему нужно будет имитировать нагрузки и запросы на уровне отдельных серверов, запросов на обслуживание через облако или любой другой пункт, где может произойти инцидент. Убедитесь, что инструмент совместим со всей всей архитектурой. Еще одним важным советом является использование системы координации и управления инцидентом, прежде чем вы начнете впрыскивать контролируемые хаос в вашим системам, чтобы обеспечить плавный процесс и максимизировать значение ваших экспериментов.
Точно так же вам нужно следить за результатами ваших экспериментов и учиться у них. Ваш инженерный инструмент Chaos должен дать вам значимые результаты по экспериментам. Chaos Engineering дает возможность для инцидентов в создании опыта использования и переработки процедур. Убедитесь, что вы можете отслеживать, как эта экспертиза растет также.
Выбор инструментов SRE — это инвестиция. Инструменты будут иметь кривые обучения и вызовы в реализации, но в конечном итоге платят за себя в сохраненном времени и трудике. Для получения дополнительной рекомендации по созданию вашего Ultimate Srevice Solution, проверьте руководство нашего покупателя для надежности здесь Отказ И если вы хотите посмотреть, как BreaMess помогает повысить вашу практику SRRE с SLOS, сотрудничеством, инцидентным ретроспективами и более, присоединиться к нам для Демо Действительно
Оригинал: «https://dev.to/blameless/choosing-the-right-sre-tools-19la»