Рубрики
Uncategorized

Получение Sre Buy-In из менеджера или приводящих к ответ на инцидент

Первоначально опубликовано в неудаче неизбежно. Принятие лучших практик SRE может быть сложной, особенно … Теги с Sre, Devops.

Первоначально опубликовано на Ошибка неизбежна Отказ

Принятие лучших практик SRE может быть сложно, особенно когда вам нужно одобрение от менеджеров, VPS, CTO и многое другое. В этом сообщении в блоге мы будем проходить вас через создание выигрышного поля для каждого уровня лидерства, чтобы убедиться, что SRE Buy-In преуспеют в вашей организации. Давайте начнем с начала с вашей команды лидерством или менеджером.

Как один из первых шагов к усыновлению SRE, управление инцидентами является ключом. Вы хотите реализовать эффективную систему управления инцидентами в вашей команде. Теперь пришло время убедить вашего свинца/менеджера. Как вы будете делать это?

Во-первых, нам нужно признать, что ваш менеджер понадобится много поддержки от инженерных и разработчиков команд на этот переход. Эти команды понадобится обучение в этой системе управления инцидентом, чтобы использовать ее каждый раз, когда происходит инцидент.

Во-вторых, вам нужно определить, что вы подразумеваете под управлением инцидентами. Мы определим управление инцидентами как сборку, расследование, разрешение и процесс обучения. Это включает в себя Playbooks Incrient Respureds, измерить время для обнаружения, систем мониторинга и рабочего процесса билетов.

После того, как у вас есть дескрипция в основном предложении, пришло время подумать о том, что включена команда (Manager), получит выгоду из системы управления инцидентами.

Есть четыре стимула, которые мотивируют вашу команду, чтобы принять лучшие практики управления инцидентами:

  • Лучшие практики управления инцидентами восстанавливают ваши системы как можно быстрее, когда происходит инцидент.
  • PlayBook дает каждому ощущение контроля среди хаоса. Он определяет набор повторяющихся практик для проведения согласованности, помогая всем быть тщательным со своим решением проблем.
  • Время измерения до разрешения (TTR) и времени для обнаружения (TTD) позволяет менеджеру определить улучшение команды на TTR и TTD, движущуюся вперед.
  • Интеграция с оповещениями и системами билетов уменьшает переключение контекста между различными приложениями. Это снижает стресс от умственно отслеживания многих систем.

Тем не менее, объяснение этих стимулов к вашему менеджеру и надеясь на немедленную поддержку не гарантирует выкупа. Вам нужно предвидеть сопротивление, вашему менеджеру придется к этому большими изменениям.

Ваш менеджер может сказать: «Наш текущий процесс ручной, но достаточно хорош. «Оседж синдром или« наши системы достаточно хороши », может быть трудно преодолеть. Вам будет до того, чтобы изменить разум вашего менеджера и убедить их, что пришло время для чего-то лучше, чем «просто хорошо».

Чтобы сделать этот аргумент, вам нужно будет полагаться на обоих фактических, логических апелляции, а также эмоционального. Хотя нет ни одного правильного ответа, чтобы решить эту проблему, как каждая организация, команда и менеджер отличается, есть некоторые темы, которые ваш менеджер может соединиться с лучшего, чем другие.

Здесь вам придется сопереживать и поставить себя в обувь вашего менеджера. Что бы мотивировать вас?

Если вы были ответственны за целую команду, и произошло главный инцидент, какие бы ваши первые эмоции будут? Скорее всего, вы боялись. Хотя культура страха не то, что вы хотите, при принятии SRE, это может помочь стимулировать принятие важных лучших практик. В конце концов, если новые процессы могут помочь уменьшить страх вашего менеджера, устанавливая гарантии и готовность, которые будут обратиться к ним.

Одним из основных источников страха является потеря контроля. Когда происходит инцидент, текущие ручные процессы не удаются. С переездами к микросервисам может быть трудно понять, где произошел инцидент, и как его смягчить. Откаты являются опцией, но они не решают основную проблему. Ваш менеджер несет ответственность за обслуживание, возвращающуюся к нормальной эффективности, и отвечая, почему это произошло в первую очередь.

Эта ответственность — значительная проблема. С лучшей системой управления инцидентами ваша услуга может работать быстрее. А с автоматическими рондуками, разрешающими инцидент, может потребоваться минимальный хаос. Быстрее и более последовательное разрешение инцидента могут помочь вашему менеджеру восстановить некоторое управление.

Другой источник страха теряет вашу команду. Если ваши товарищи по команде просыпаются в 2:00 утра без конца видом, мораль будет низким. Кроме того, ручные процессы являются трудным и стрессом. Команда хочет увидеть процесс, получая менее напряженное со временем, не хуже, поскольку количество услуг увеличивается. Эксплуатационная сложность неизбежна, но если это приводит к большему количеству инцидентов и незапланированной работы, что приведет к выгоранию, а также нездоровую культуру команды.

Люди начнут поиск других вариантов занятости, если эти проблемы не решены. При капель численности персонала и ставки оборота в палате, ваш менеджер должен будет сохранить парусный спорт корабля, тонущий в трудоемкий процесс засыпки, найма и бортовых новых инженеров. Этот цикл не является устойчивым и достаточно, чтобы ваш менеджер ночью.

Это где вам нужно будет решить синдром Осер. Когда ваш менеджер говорит: «Текущий процесс руководствуется, но достаточно хорош», спросите их, если все последствия процесса предназначены. Повторные 2 утра звонит целенаправленным? Если ответ нет, то ваша система недостаточно хороша.

Важно не винить ваш менеджер за эти борьбы. Ведь некоторые из этих вопросов выходят за рамки их контроля. Системы стали сложнее, а бар выше, чем когда-либо. Вместо того, чтобы указывать пальцами, пришло время лежать на более логике. Для этого вам нужно будет предоставить свой менеджер с двумя важными для продвижения усыновления:

  • Каталог услуг по количеству услуг/микросервисов, которые у вас есть и их зависимости. Покажите, как они выросли и будут продолжать расти.
  • Во время нового доказательства концептуальной фазы вам понадобится отслеживать тенденции TTD и TTR. Если есть положительные результаты, то вы можете оправдать выкатывание системы и изменения процесса для большего количества команд.

Вооруженные эмоциональными и логическими обращениями, вы можете подойти к вашей команде и обсудить улучшение вашей системы управления инцидентами. Это отличный первый шаг к усыновлению SRE, но вы не можете остановиться здесь — вы достигнете местных максимумов, которые падают короткие долгосрочные. Вам нужно будет подумать о том, как оформить усыновление SRE для следующего уровня лидерства, чтобы получить необходимость в курсе. Если вам понравилось этот блог, посмотрите эти ресурсы:

Оригинал: «https://dev.to/blameless/getting-sre-buy-in-from-a-manager-or-lead-for-incident-response-46pa»