Вы приземлились здесь, ища, чтобы уменьшить MTTR в качестве DevOps/SRE или инженера по надежности? Если да, то вы находитесь в нужном месте. Если нет, вы все равно должны читать, если вы заботитесь о надежности системы, которую вы создаете.
MTTR — или среднее время для разрешения является широко используемой метрикой в сфере надежности систем. Однако люди склонны интерпретировать MTTR по -разному. Временный патч для поднятия систем может рассматриваться как разрешение в некоторых командах, даже если основная причина требует более долгосрочного исправления. Независимо от его различных определений, MTTR является важнейшей метрикой, потому что это мера оперативной устойчивости и тесно связана с вашим временем безотказной работы. И самое главное, существует универсальная необходимость снизить это число, поскольку оно оказывает непосредственное влияние на доход и счастье для клиентов.
Недавнее исследование, проведенное devops.com пытается измерить влияние времени простоя, а цифры довольно ошеломляющие
- Для Fortune 1000 средняя общая стоимость простого простоя не запланированного применения в год составляет от 1,25 до 2,5 млрд. Долл. США.
- Средняя почасовая стоимость сбоя инфраструктуры составляет 100 000 долларов в час.
- Средняя стоимость критического сбоя применения в час составляет от 500 000 до 1 млн. Долл. США.
Таким образом, представляет собой разум, что инженерные команды должны стремиться к снижению общего MTTR. Но одна из самых больших проблем, с которыми сталкиваются DevOps и ИТ сегодня, — это неспособность быстро предпринять очевидные действия по смягчению последствий, когда был обнаружен инцидент — это, в свою очередь, приводит к увеличению TTR.
Время, необходимое для обнаружения проблемы или инцидента, зависит от:
- Различные журналы, инструменты мониторинга и другие решения на месте
- Эффективность и доступность этих инструментов и
- Зависимости от других команд и систем.
После того, как инцидент обнаружен, принять правильные действия автоматически и немедленно — самый простой шаг, чтобы сделать устойчивое и измеримое улучшение вашего MTTR.
Теперь Это означает не только предупреждение правильного респондента вовремя, но также вызывает определенные сценарии и сбои на основе серьезности и контекста инцидента, чтобы минимизировать воздействие конечного пользователя.
Итак, мы подумали — что, если бы вы могли получить уведомления о том, что вы можете получить уведомления о событиях, и вы можете просто провести эти уведомления, чтобы признать и предпринять основные действия по смягчению последствий. Вам не нужно добраться до вашего ноутбука, или запускать вещи на терминале или войти в несколько других инструментов, таких как CI/CD, инфра -автоматизация или платформы тестирования. Звучит интригующе? Проверить как это устроено .
Представление действий Squadcast
Часто, несмотря на то, что команда DevOps/SRE/по вызову сразу же предупреждает о крупном инциденте, и, несмотря на то, что они знали в считанные секунды, какие действия необходимо предпринять, чтобы минимизировать воздействие конечного пользователя, это все еще занимает несколько минут, а иногда и иногда Часы восстановления из -за человеческого фактора. Это особенно верно, если инженер SRE/по вызову находится вне рабочего времени или вдали от своего компьютера.
Само собой разумеется, фактическое разрешение инцидентов может занять много часов или даже дней в зависимости от времени сортировки, доступа к ключевым данным/информации, сотрудничеству других коллег. Но в подобных случаях быстрое восстановление в состоянии, где воздействие конечного пользователя является несущественным, должно быть единственным приемлемым поведением. Расширение прав и возможностей команд по вызову быстро Принять очевидные и необходимые действия могут спасти день (и, что самое важное, избежать этих ужасных звонков в 3 часа утра!)
Вот почему мы построили Действия Squadcast — Удобный и практичный способ реагировать на инциденты вовремя. В Squadcast Мы одержим улучшением опыта по вызову и уменьшению неотъемлемого стресса от инцидентов.
Действия Squadcast позволяют вам предпринять действия непосредственно изнутри платформы. Вы можете предпринять быстрые действия, такие как
- Признание или разрешение инцидента
- Восстановление проекта
- Перезагрузка сервера
- Отказ от функции
- Запуск пользовательских сценариев и многое другое
Все это только с краном, что позволяет легко выполнять задачи, которые в противном случае являются ручными и повторяющимися. Или другими словами — Снижение труда для вашей команды Анкет
Например, одним из действий, которые вы можете предпринять, является*«восстановление Circleci»*Проект прямо со страницы инцидента, нажав на Кнопка больше действий. (Обратите внимание, что для того, чтобы сделать это, интеграция Circleci с Squadcast должна быть сначала завершена)
Вы также можете увидеть действия, выполненные в хронологическом порядке как часть временной шкалы инцидента. Временная шкала инцидента предназначена для того, чтобы служить вашим единственным источником правды о том, кто сделал то, что и когда, в то время как инцидент был живым.
Ответ инцидента на Go — Действия Squadcast на мобильных устройствах
Самое приятное в принятии действий — это сделать это на ходу — будь то, пока вы наслаждаетесь восхитительной едой со своими коллегами на обед или во время утомления поездок на работу и сюда с работы. Наши полностью функциональные нативные приложения на платформах Android и iOS позволяют легко реагировать на критические инциденты с предварительно определенными действиями.
Вот быстрый Подкрасться к взгляду
Эффективное управление инцидентами не только требует отправки правильной информации правым респондентам по вызову, но и для давления вашей команде с правильными инструментами для действия быстро. Объединение Squadcast с существующим рабочим процессом управления инцидентами позволяет специалистам DevOps/SRE эффективно отслеживать, анализировать и разрешать инциденты.
Понравилось? Если вы зашли так далеко, вам обязательно следует проверить несколько крутых новых функций, над которыми мы сейчас работаем, доступны на нашем Дорожная карта продукта.
Мы любим ваши комментарии. С чем вы боретесь как DevOps/SRE? У вас есть идеи о том, как реагирование на инциденты можно сделать в вашей организации лучше?
Мы были бы рады получить известия от вас! Оставьте нам комментарий или протяните на DM через Twitter И дайте нам знать ваши мысли.
Узнайте больше о Отборка
Оригинал: «https://dev.to/anuangie/how-squadcast-actions-help-you-reduce-mttr-4j5n»