Рубрики
Uncategorized

Посмотрите вверх по течению, чтобы решить проблемы надежности вашей команды

Почему выше по течению? В «Upstream» DAN Health мы исследуем разнообразные разные проблемы. Теги с Sre, Devops.

В « upstream » от здоровья Дэна мы исследуем разнообразные различные проблемы, начиная от бездомности, к высокому выпускным курсам, в состояние тротуаров в разных районах в том же городе. В каждом из этих примеров Дэн обсуждает, насколько воспроизводимым мышлением снизилось ни в порядке. Вверх по течению мыслей характеризуется как уактивные, коллективные действия для улучшения результатов, а не реакции после того, как проблема уже произошла.

Вы также можете применить этот метод для разработки программного обеспечения.

С помощью технологии, движущихся на темпе пребывания, трудно идти в ногу с незапланированными работами, такими как инциденты и неизвестные неизвестные, которые приходят с увеличением сложности программного обеспечения и взаимозависимости. Тем не менее, мы не можем остановить развитие. Как указывает Дэн, «Любопытство и инновации и конкурентоспособность продвигают их вперед, вперед, вперед. Когда дело доходит до инноваций, есть ускоритель, но нет перерыва »(« UPStream », PG 224).

Мы не можем препятствовать инновациям, но мы можем Дэн-Хит-мудрость из восходящего мышления, чтобы отойти от реактивных режимов работы и сделать наши команды и нашими системами более надежными.

Прежде чем мы сможем сосредоточиться на реализации восходящего мышления, мы должны признать общие барьеры. Дэн отмечает проблему здесь: «Организации постоянно занимаются срочными краткосрочными проблемами. Планирование спекулятивных будущих существует, по определению, не срочно. В результате трудно убедить людей сотрудничать, когда трудности не заставили их «(220).

Это может заставить его чувствовать, что все является барьером для восходящего мышления. Но Дэн отделяет эти проблемы на три группы: проблемная слепота, отсутствие собственности и туннелирования.

Проблема слепоты

Проблема слепоты — это самоуверенность: вы не знаете, что у вас на самом деле есть проблема. Вопросы и ежедневные жалобы расчесываются как Просто так, как вещи есть Отказ

Рассмотрим Удаление усталости Отказ Когда вы так часто выступали, что вы начинаете игнорировать оповещения, вы проявляете проблему слепоты. Вы не только игнорируете потенциально важные уведомления, но вы денсифицированы и, возможно, становились сожженным.

В этой ситуации вы можете услышать, что люди говорят такие вещи, как, «О, это просто так, как оно есть. Наши оповещения шумные. Вы можете игнорировать их, — или «Я не могу вспомнить, в последний раз у меня есть выходные. Вы привыкнете к этому. Тони Лыкке столкнулся с этим вопросом и разговаривал в Срекон Америке в 2019 году. Его разговор: « Утверждая по-вызы, когда никто не думает, что это (тоже) сломано » описывает эту апатию.

Важно вырастить мудрые проблемы. Если вы не знаете о них, вы не можете начать их исправлять. Вопрос статус-кво. Есть проблемы в вашей организации, которые были уволены или охвачены под ковриком? Это источники проблемной слепоты. Как говорит Дэн, «побег от проблемной слепоты начинается с шока осознанности, который вы пришли к лечению ненормально, как обычно» (37).

Отсутствие владения

Еще одна распространенная проблема с предложением восходящей работы состоит в том, что она часто добровольно. Никто не заставит вас сделать это. Это не приоритетны как планируемая работа в контексте обычной предпринимательской деятельности. Он не будет добавлен в Sprints, клиенты не будут вставлять запросы на функцию для него, и поэтому никто не будет назначен на него.

«Что странно о работой выше по течению, это то, что, несмотря на его огромные ставки, это часто необязательно . С нижней активностью — спасания и ответы и реакции — работа часто требуют от нас »(41).

В то время как Владение услуг Это возможное решение, может быть трудно водить большие системные изменения, когда столкнулись с большим количеством незапланированной, реактивной работы. Это можно рассматривать как дополнительное бремя без четкиного выплаты, поскольку преимущества трудно явно определить, особенно в краткосрочной перспективе. Это приводит к последнему основному барьеру до работы, туннелирование.

Туннелирование

Туннелирование — это когда у вас слишком много проблем, чтобы решить, поэтому вы игнорируете некоторые, чтобы сосредоточиться на тех, которые вам нужно исправить. Как сказал Дан: «Когда люди жонглируют много проблем, они отказываются от попытки решить их все. Они принимают туннельное зрение. Там нет долгосрочного планирования; Там нет стратегической приоритеты вопросов. И именно поэтому туннелирование — это третий барьер для восходящего мышления — он ограничивает нас краткосрочным, реактивным мышлением »(59).

Короче говоря, нет возможности участвовать в системах мышления. Все когнитивные емкости направлены на разрешение реактивной проблемы под рукой. «Это ужасная ловушка: если вы не можете систематически решать проблемы, это обретает вас оставаться в бесконечном цикле реакции. Туннелирование порождает туннелирование, «(62).

И туннелирование вознаграждено! Когда вы решаете то, что проблема с огнем волос, восстановление службы или исправлена ошибка, которую вы отмечаются — это иначе известна как культура героя и может также разводить токсичность. Дэн также отмечает головную часть этого: «Туннелирование не только самоуверенно, он может даже быть эмоционально награжден. Есть своего рода слава, которая приходит от остановки большого отверстия в последнюю секунду »(62).

Это только приводит к Выгореть . В конце этого туннеля нет света, так сказать. По словам Дэна, есть только один способ избежать этого: Slack. » Slack, в этом контексте означает резерв времени или ресурсов, которые могут потратить на решение проблем »(63). Slack означает быть способным делать допущенную работу. Вместо того, чтобы попасть в ловушку, будучи называть героями, способствуют культуре, которая создает Чемпионы на звонках Отказ

Делать приверженность до восходящей работы важно выкопать из реактивной работы, в которой находились многие команды. Но как вы начинаете? У Дэна есть несколько методов поделиться, которые относятся к Sre.

Дэн считает, что один из самых важных шагов в восходящем мышлении не связан с системой. Они человека. Поскольку люди будут решать эти проблемы, мы являемся первой частью головоломки, и самым важным.

Есть способ сделать это хорошо. Дэн отмечает, что вы должны попытаться «… окружить проблему с нужными людьми; дайте им раннее уведомление этой проблемы; и согласовать свои усилия по предотвращению конкретных случаев этой проблемы» (88).

Например, вы можете быть увязны инцидентами и не могут решать элементы действий, вытекающие от Инцидент ретроспективы и операционные отзывы. Эти предметы действий сидят в заднем плане и не планируются для любых спринтов. Чтобы изменить это, вам нужно будет получить Buy-in от многих заинтересованных сторон. Вам понадобится инженеры, менеджеры, команды продуктов и VP инжиниринга на борту.

«Как только вы окружали проблему, вам нужно организовать все усилия этих людей. И вам нужна цель, которая является убежденным и важной — общая цель, которая удерживает их даже в стрессовых ситуациях », — говорит Дэн (82).

Изменение системы

Как только ваша команда готова вступить в этот путь вверх по течению, вам нужно будет работать над фактически изменением системы. Это может быть одним из самых сложных частей, так как это длительное усилие. Системные изменения редко бывают в одночасье. Вместо этого вам нужно будет создавать и вступать в действие процессы для управления поведенческим изменением.

«Изменение систем начинается с искры мужества. Группа людей объединяется вокруг общего дела, и они требуют изменения. Но искра не может длиться вечно. EndGame — это устранить необходимость смелости, чтобы сделать его ненужным, потому что он принудил изменения в системе. Успех приходит, когда права происходят по умолчанию — не из-за индивидуальной страсти героизма »(109).

В нашем примере выше, изменение системы может принимать разные формы. Один метод проходит через удаление всех экшепоставленных элементов действий из инцидентных ретроспективах для плановых спринтов. Если более неотложные исправления решаются в Sprint или двух, вместо того, чтобы записаться на поздние даты, команды могут избежать повторяющихся инцидентов и делового риска.

Возможно, вы обнаружите, что последующие элементы действий не завершены. Вы можете поручить, чтобы все инженеры, вовлеченные в инцидент, имеют 48 часов, чтобы превратить в их анализ после инцидента. Вы также должны дать им время, где они могут работать над их повествовательным бесперебойным.

Возможно, вы обнаружите, что некоторые работы по вопросам действий не охватывают то, что ваша команда чувствует более глубокие проблемы. Возможно, элементы действий имеют тривиальные, одноразовые исправления, которые будут покрывать только определенные краевые случаи. Убрал время каждый месяц, где инженеры могут работать над проектами, которые они думают, что они считают самым большим воздействием.

Нахождение точки плеча

Окружение проблемы и создание системных изменений важно, но также важно знать ваши кредитные точки. После всей работы будут люди, которые спрашивают: «Почему мы тратите время на это, когда мы могли бы построить это?»

Деньги часто являются вожденным фактором. Часы разработчика дорого, но они дороже, чем отключения? » Необходимая точка поиска жизнеспособного кредитного планета — рассмотреть расходы и выгоды. Мы всегда будем хотеть больше всего взрыва для нашего доллара », ноты Дэна (127). Если ваша организация теряет тысячи или даже миллионов долларов на отключения, анализ затрат-выгод может быть намного проще; Отключения слишком дороги, чтобы продолжать. Тем не менее, если отходы не вызывают слишком много разрушения до нижней строки, может быть сложнее выразить потребность в работе в возрасте.

Дэн признает это. «Одним из самых разрушительных и разрушительных идей о профилактических усилиях является то, что они должны сэкономить нам деньги. Обсуждения добывающих инвестиций всегда, кажется, кругу обратно в ROI: будет ли вложить доллар сегодня, принести нас больше в долгосрочной перспективе? (127).

Многие времена будут затронуты ROI, но в тех случаях, когда RoI недостаточно выплаты для инвестиций, вы можете искать другие рычаги.

В случае нашей примерной проблемы мы можем посмотреть на счастье разработчика. Эти команды устали. Они сожжены. Может быть, они станут апатичными. Инвестирование в восходящую работу может значительно улучшить ситуацию. Кроме того, он сохранит менеджеров и автомобильные ресурсы HR, чтобы использовать, так как более высокое удовлетворение рабочих мест приводит к снижению скорости оборота. Поскольку люди являются наибольшим конкурентным преимуществом организации, одна из самых важных потенциальных результатов работы по течению работы является содействие здоровой культуре, чтобы сохранить талант.

Получение ранних предупреждений проблем

Большинство организаций хотели бы знать, когда наши разработчики недовольны, чтобы они могли предпринимать активные меры, чтобы выгрузить их от ухода. То же самое относится и знать, когда клиенты недовольны тем, что они не позволяют им взбиваться конкурента. А для множества причин организации также хотят избежать дорогих нарушений SLA.

Это все критически важные сигналы, чтобы иметь видимость в. Но как мы можем активно понимать, какие услуги и факторы вклад в состав, скорее всего, связаны с этими проблемами?

Системы раннего предупреждения важны, но вам нужно знать, как вы намерены их использовать. Как Дэн отмечает, «нет неотъемлемых преимуществ ранних предупреждающих сигналов. Их ценность петли по серьезности проблемы … Значение также зависит от того, обеспечивает ли системе предупреждения достаточно времени для ответа «(137).

В этом случае SLOS может быть хорошим показателем. Если сервис испытывает много отключений, может привести к проблеме несчастья. SLOS указывает на минимальные функциональные возможности, которые клиент будет ожидать до того, как опыт страдает. В этом случае он также может быть использован для обнаружения, когда разработчики могут чувствовать себя пораженным.

Представьте себе, что эта команда устанавливает SLOS, которые контролируют доступность определенной функции, для которой часто зарабатывают разработчики. Когда он достигает определенного порога для предопределенного периода времени, команда должна остановить разработку функций на политику эскалации, чтобы сосредоточиться на системных вопросах, которые приводят к ненадежным услугам. Это дает разработчикам время для рефакторов кода, исправлять ошибки, установить мониторинг и автоматизацию и сделать более стабильную услугу, которая требует меньшего количества инженерных вмешательств в будущем.

Признавая успех

Наша пример команда сделала большие успехи в восходящем мышлении, но как мы можем знать, какой успех выглядит, когда мы видим это? В таких случаях, как эти, успех часто измеряется вещами, не происходящими. Это может быть трудно доказать эффективность.

Как отмечает Дан, «с усилиями вверх по течению, успех не всегда очевидно. Зачастую мы не можем напрямую воспринимать успех, и мы вынуждены полагаться на приближения — быстрее, более быстрые меры, которые мы надеемся, будут сообращаться с долгосрочным успехом »(153).

Нам нужно найти способ измерить успех, хотя это не будет прямой корреляцией. В конце концов, если бы мы решили, что реальная проблема — это общее чувство несчастья, невозможно точно измерить увеличение счастья. Процесс измерения успеха также сложно.

«Получение краткосрочных мер справа неразрядно сложно. И это критично. На самом деле, единственное, что хуже, чем бороться с краткосрочными мерами, не имеет их вообще », — говорит Дэн (160).

В этом случае мы можем посмотреть на несколько метрик:

  • Ставка оборота в машиностроении
  • Нарушения SLA
  • Время работы на окно прокатки
  • Обследования сотрудников

Конечно, это все отстающие индикаторы, но положительные тенденции на этих векторах могут помочь количественно демонстрировать значение восходящего мышления.

Избегать навреждения

Хотя усилия по созданию системных улучшений всегда хорошо предназначены, иногда они могут иметь непреднамеренные последствия. Дэн отмечает, что «взвешенные вмешательства Tinker со сложными системами, а как таковые, мы должны ожидать реакций и последствий за пределами непосредственного объема нашей работы» (174).

Иногда наши улучшения нарушают вещи непреднамеренно. Иногда они могут на самом деле усугубить проблему, которую они пытаются решить. Мы могли бы даже не заметить, когда это произошло, и если наши краткосрочные измерения будут иметь в хорошем состоянии, мы могли бы упускать из виду последствия.

Вот почему обратная связь настолько критична. Нам нужно активно искать отзывов при каждой возможности и убедиться, что есть место для отзывов, чтобы быть открытым и качественным. Системные улучшения являются очень сложными. Нам нужно быть в поисках дополнительных спутников, поэтому четко определенные менеджмент изменений — в контексте того, как работает ваша организация — является ключом.

Дэн напоминает нам об этом. «Мы не можем предвидеть все; мы неизбежно ошибся о некоторые из последствий нашей работы. И если мы не собираем обратную связь, мы не будем знать, как мы ошибаемся, и у нас не будет возможности менять курс »(180).

Системное изменение сложно и волосатая, но поскольку изменение является единственной константой, способность организации адаптироваться к изменению, сделает или нарушит его успех. Если мы не можем развиваться, мы потерпимся. Из-за этого это действительно важнее, чем когда-либо для нас, чтобы посмотреть на то, что некоторые методы решения проблем, чтобы гарантировать, что мы не сметались по текущему.

Если вам понравилось, проверьте эти ресурсы:

Оригинал: «https://dev.to/blameless/look-upstream-to-solve-your-team-s-reliability-issues-7b0»