Первоначально опубликовано на Неудача неизбежна Анкет
После получения Управленческое утверждение для управления инцидентами , ваша программа Buck-in SRE ведутся. Как вы можете доказать, что это эффективно, и что применение большей практики необходимо? Во второй части этой серии блогов мы собираемся поделиться, как убедить вице -президента или директора инвестировать в большее количество практик SRE. Эти практики включают автоматические метрики и непрерывное обучение.
Ваша команда внедрила управление инцидентами и может реагировать на инциденты и разрешать их быстрее, чем когда -либо. Но вы не учитесь так много из этих инцидентов, как могли бы.
Вручную выяснить, что измерить (не говоря уже о том, как это сделать), занимает много времени. Вам необходимо найти лучший способ сообщать данные, чтобы ваша команда могла сосредоточиться на обучении, улучшении и инновациях. Это требует бай-ин на уровне вице-президента или директора. Прежде чем приблизиться к этому разговору, вам нужно учитывать два соображения.
Во -первых, вам нужно понять, что это большое мероприятие для вашего вице -президента/директора. Им нужно будет получить поддержку от всей команды инженерных и Devops, а также членов команды по продукту, для этой инициативы добиться успеха. Таким образом, важно, чтобы ваша апелляция учитывала их точку зрения и цели.
Во -вторых, вам нужно определить, как выглядит непрерывное обучение. Мы определяем его как набор возможностей, которые стимулируют общий контекст и фокус. Это включает, но не ограничивается:
- Автоматизированное и агрегированное измерение данных (MTTR, затронутые клиенты и т. Д.)
- Стандартизированные средства отчетности и панели мониторинга
- Инцидент ретроспективы
- Командная тренировка
Теперь, когда у вас есть основы вашего предложения, пришло время сформулировать стимулы.
Есть несколько основных стимулов для автоматизации метрик и непрерывного обучения. Они созданы таким образом, что ваш вице -президент или директор будут заботиться.
- Агрегирование данных от команд продуктов, групп поддержки клиентов и т. Д. Удаляет организационные бункеры и способствует сотрудничеству перекрестных команд. Это делает процесс связи проще, так как сбор данных является болезненным и трудоемким.
- Автоматизация отчетности уменьшит утомительные часы привлечения запросов базы данных. Если это не автоматизировано, инженерные команды могут вообще не добраться до этого. Это затрудняет показать прогресс и преимущества инвестиций в SRE
- Ретроспективы помогают командам захватить обучение и распространять его по командам программного обеспечения. Это предотвращает повторную ошибку снова в глубоком анализе. Кроме того, это обучение может помочь разрешить аналогичные инциденты быстрее в будущем. В то время как опытные инженеры могут иметь инстинкт о том, что не так, младшие инженеры или новые сотрудники могут нет. Захват важных знаний в ретроспективе позволяет кодифицировать знания. Вы будете обучать новых инженеров и быстро ускорить их.
Даже при изложенных этих стимулах сопротивление все еще вероятным. Вот некоторые общие опровержения, к которым вы должны подготовиться.
Если вы приняли передовые практики управления инцидентами, ваш вице -президент/директор может сказать, что это достаточно хорошо. Кроме того, они могут утверждать, что надежность не является неотложной проблемой в данный момент, и что новые функции являются более высоким приоритетом. Другими словами, стимулы предпочитают немедленный срок, а не долгосрочные цели.
Другое сопротивление состоит в том, что ретроспективы различаются, трудно просмотреть и, как правило, один из них. Это означает, что после завершения они подаются и забыты. Многие могут быть вообще не завершены, так как они занимают слишком много времени, чтобы построить и не приказывать столько срочности по сравнению с такими задачами, как разрешение инцидентов или доставка новых функций продукта.
Хотя эти проблемы кажутся трудными для противодействия, рассматривая как эмоциональные, так и логические обращения, мы можем представить причины, по которым необходимо применение непрерывного обучения и автоматизации. Мы также предоставим метрики, чтобы доказать это.
Чтобы подключиться к VPS и директорам, важно проиллюстрировать моменты «волос в огне», которые доказывают надежность, является насущной проблемой. Вы можете начать с решения стресса команды. Инженерные команды имеют дело с инцидентами, но это постоянная битва. Без способности агрегировать системы, инциденты и ретроспективные данные и видеть закономерности, степень проблем надежности остается скрытой. Это может привести к разочарованию в инженерных командах. Команды становятся увязчивыми ручными, повторяющимися работой, что приводит к выгоранию и оттоке.
Если уровни инженерного стресса не являются проблемой для вашего вице -президента или директора (они всегда должны быть!), Вы можете поговорить с удовлетворенностью клиентов. Надежность в настоящее время является самой важной функцией. Надежность — это чистая сумма всех функций, которые вы уже отправляли ранее. Если какая -либо отправленная функция ненадежна, значение всех других функций является спорным. Таким образом, сумма больше, чем любая одна новая функция, которую вы собираетесь отправить. Если клиенты недовольны этой суммой, они уйдут за конкурента, который обеспечивает лучший опыт.
Эти апелляции важны, но вам нужны данные, чтобы подтвердить их. Чтобы доказать своему менеджеру, что усилия по автоматизации стоят того, количественно оценить количество инцидентов, ошибок, регрессий, вызванных новой работой функции и времени, необходимым для их исправления. Сколько пожаров и инцидентов по вызову происходит в течение месяца, и как они коррелируют для работы и проекта? Сколько денег и ресурсов входят в новые функции, которые не могут придерживаться стандартов клиентов? Цифры, вероятно, удивит их.
Давайте сосредоточимся на аргументе, что управления инцидентами уже достаточно. Крайне важно отметить, что SRE — это не только восстановление инцидентов, но и способ максимизировать обучение на моделях инцидентов. Без усилий по постоянному обучению вы не улучшаетесь, и ситуация ухудшится. Вы можете посмотреть на прошлый набор инцидентов, написать ретроспективы для них и посмотреть, что такое корреляция. Вполне вероятно, что многие инциденты могли быть предотвращены, если бы вы смогли автоматизировать метрики и отслеживать у них шаблоны.
После того, как вы проведете пробный запуск по автоматизации и непрерывному обучению, вам нужно доказать эффективность. Для этого собирайте метрики общесистровки во всех инцидентах. Покажите время, сэкономленное с помощью автоматической отчетности об инцидентах и ставке последующих действий, завершенных. Кроме того, вы должны измерить новые ошибки и проблемы наем.
Одни только эти два показателя должны продемонстрировать необходимость автоматизации и непрерывного обучения. Ретроспективы различаются, но узоры скрываются под поверхностью. Вашей команде нужна возможность раскрыть их. Тем не менее, есть еще одно общее сопротивление обращению.
Ретроспективы слишком разнообразны. Опытные команды имеют инстинкт инстинкта, что инциденты могут быть связаны, но до тех пор, пока не появится формальный процесс для использования и совокупности, метрики, необходимые для управления изменениями организации, не получат много времени для производства. Как правило, ретроспективы свободны и трудно вернуться назад и проанализировать.
Чтобы бороться с этим, предложите инструмент, который автоматизирует ретроспективное сбор информации. С точки зрения отчетности, вы можете создать схему метаданных (например, влияние на услуги, клиенты, влияющие на факторы), чтобы показать основные модели. Сопоставьте метаданные от Postmortems, чтобы показать и проектную работу, чтобы показать корреляцию.
С этими показателями в руках вы готовы предложить автоматические метрики и непрерывное обучение вашему вице -президенту или директору. Но есть еще один уровень лидерства, который вам необходимо убедить расширить возможности усыновления SRE. В части 3 мы обсудим Как получить вклад от вашего генерального директора или технического директора Анкет
Если вам это понравилось, ознакомьтесь с этими сообщениями:
- 5 лучших практик на посмертных приземлениях
- Улучшение посмертных практик с ветераном Google SRE, Steve McGhee
Оригинал: «https://dev.to/blameless/getting-buy-in-from-a-vp-or-director-for-automated-metrics-and-continuous-learning-37n2»