В эпоху достоверности, где простые минуты простоя или задержек могут стоить сотни тысяч долларов, наличие в 24х7 и охвачении на вызов для реагирования на инциденты стало требованием подавляющего большинства организаций. Но создание системы включения, которая приводит к эффективным ответам на инциденту при минимизации напряжения, размещенного на инженерах, не является тривиальной задачей. Установление справедливых вращений на вызове, вкладывая правильные ограждения и автоматизацию на месте, а регулярные практики инцидента являются ключом. В этом блоге мы будем делиться ключевыми инструментами и практиками, чтобы гарантировать, что ваши инженеры на вызове настроены для успеха.
Постоянные практики и политики
При настройке системы включения системы важно определить четкие и последовательные политики и практики. При проведении обязанностей по вызовам инженеры не должны надо изобретать колесо, когда пейджер выходит; В идеале планирование вокруг тяжести, падающих пакетов и многое другое должно происходить во время мирового времени. Команда должна работать вместе, чтобы создать правила, которые диктуют, когда и как происходят эскалации на вызов. Убедитесь, что вы выполняете следующее, прежде чем внедрить систему включения.
Создание графиков вращения
Во-первых, вам нужно будет создать расписание вашего звонка. Работа, какие инженеры должны быть доступны для различных системных областей, где могут возникнуть инциденты, глядя на то, где каждый инженер имеет участие в собственности и доменной экспертизе. Создавайте команды, чтобы максимизировать разнообразие и покрытие, позволяющее каждый раз эффективно реагировать на множество различных типов инцидентов. Заполните календарь этими командами, убедившись, что каждая смена покрыта для вашего периода вращения.
Во время всего этого проконсультируйтесь с вашими инженерами, чтобы убедиться, что ваши графики являются разумными и справедливыми. Как долго длится сдвиг на звонок последним? Как часто команда отправится на звонок? Что должна быть процедура, если инженер должен изменить сдвиги? Чтобы убедиться, что мораль высоки и команды эффективно отвечают, убедитесь, что каждый инженер имеет честную сказать в этих вариантах.
Будьте готовы изменить свой график вращения часто, даже после внедрения. Реальность рабочих сдвигов на вызове часто очень отличается, чем предсказывала, поэтому посмотрите на данные о вызове, чтобы раскрыть, могут ли определенные лица перегружены прерыванными прерываниями или критическими инцидентами, и нагрузки нагрузки соответствующим образом. Будьте гибкими, услышав проблемы людей, поскольку они развиваются. Внешние бизнес-изменения бизнеса и этапы в циклах развития могут также резко изменять природу сдвигов на вызов, поэтому будьте готовы отражать те, которые с регулировками к длинам перемещения и частоты вращения.
Из-за этих постоянных изменений важно сохранить расписание вращения в современном виде. Убедитесь, что он хранится в месте, где удобно вносить изменения, автоматизированные и легко интегрировать с различными системами и доступными для всех. Многие настроенные платформы также предлагают инструменты планирования, чтобы сделать этот процесс проще и надежным.
Определение эскалации и политики реагирования
Следующий набор политик, необходимых для определения, — это решить, когда ваши команды на самом деле связались и как они отвечают. Чтобы бороться о усталости оповещения, вы захотите быть разумным, когда ваши команды уведомляются, но также гарантируют, что критические инциденты не упускаются из виду.
У вас должна быть система для классифицировать инциденты , сортируя их на основе тяжести и пострадавшего района в установленные классификации. Эти классификации будут определять, кто предупрежден и какой ответ необходим. Этот ответ также должен включать сроки, когда случаи тяжести необходимо решить, прежде чем вы нарушете SLOS или SLAS Отказ
Вы можете определить серьезность, взглянув на бизнес-влияние инцидентов — проблемы, предотвращающие клиентам использование услуг или нарушающие SLA, требуют гораздо быстрее и большего ответа, чем небольшая компонентная загрузка, чуть более медленная, чем обычно.
Вам также потребуется подготовить определенный ответ на каждую категорию инцидентов. Инженеры должны быть оснащены такими инструментами, как Runbooks начать решать инцидент, как только они предупреждают. Эти Runbooks также могут включать проверки для запуска дальнейшей эскалации. Убедитесь, что ваши инженеры на вызове знакомы с этими рунамиками и уверены в том, чтобы выполнить их, когда придет время. Расписание Обычных обзоров сеансов для обновления RunBooks на основе инцидентных ретроспективах.
Выращивание культуры по вызову
Между его созванным в постели в крошечных часах, при необходимости обрабатываем инциденты с меньшим количеством товарищей по команде и ресурсами, чем обычно, и сталкивается с чрезвычайным давлением для восстановления службы в качестве репутации бизнеса на линии, по вызову может быть чрезвычайно стрессовым опытом. Быть перегруженным на связи о обязательствах по вызову, полагая, что пошлины на вызовов присваиваются несправедливо, или, как правило, чувство недооценки могут быстро уничтожить мораль инженеров и ускорить выгорание.
Бой эти проблемы путем культивирования эмпатичной культуры на вызове, которая ставит людей первым.
Привлекайте инженеров в расписаниях установки и других политик. Услышите их опыт, празднуем их успехи и обращаясь к их борьбе. Убедитесь, что вы слышите эти проблемы безумно; Вместо того, чтобы приписать неудачи или неправильные отношения к физическим лицам, посмотрите на системы за ними. Защитите от культуры «Герой» и примите устойчивую по-вызов путем устранения единых точек провала, и обнимая меньшие и частые изменения, распределенные вращения и непрерывное обучение.
Переосмысливает инциденты от неудач и неудач к инвестициям в будущей надежности — каждый инцидент, когда правильно адресовано, делает ответ на каждый будущий инцидент лучше. Аналогичным образом, каждая переход на звонок — это инвестиции в создание будущих сдвигов на звонок лучше. Когда есть проблемы в балансировке нагрузки, приготовленные эффективные ответы или правильная эскалация, охватывают их как возможности для уточнения и расти. Для получения дополнительных советов о том, как реализовать сочувствующие и эффективные практики на вызове, посмотрите здесь наше 5 лучших настроек.
Программное обеспечение на вызове
Реализация практики на вызове является сложным процессом, но, к счастью, есть большие платные, а также бесплатные инструменты и платформы на вызове, чтобы помочь. Самые популярные инструменты включают Pagerduty, Opsgenie, Victorops, Cabot и LinkedIn по вызову (открытый источник)
При выборе инструмента на вызове, некоторые важные требования для рассмотрения включают в себя:
- Оповещение по телефону, SMS, Hipchat или электронной почте
- Ширина интеграций через стопку Tech, от контроля облака до контроля источника
- Оповещение группировки, фильтрация и деупликация
- Управление командой управления
- Простая визуализация статусов команд через календарь
- Надежность камня
ON-CALL — это важный компонент надежной системы. Чтобы понадобиться на следующем уровне на следующем уровне, вам потребуется кодифицировать контекст в опекунах и автоматизации, минимизировать труд и способствовать культуре, которая склонна к любопытству вместо вины. Blumeless может помочь вам получить больше из ваших усилий по вызовам и более широким целям надежности, интегрируя ценные данные из SLOS, контрольных списков инцидентов, постмертем, предметов последующих действий и многое другое. Чтобы узнать, как расширить возможности вашего решения SRE с Blumeless, присоединяйтесь к нам для Демо Действительно
Первоначально опубликовано на Бесплатный блог Отказ
Оригинал: «https://dev.to/blameless/how-to-improve-on-call-with-better-practices-and-tools-18kp»