Первоначально опубликовано на Ошибка неизбежна Отказ
В нашем немномешном саммите 2019 года Пол Осман говорил о том, как брать постмеремы или инцидентные ретроспективы на новый уровень.
Следующая стенограмма была легко редактирована для ясности. Слайды из этого разговора доступны здесь.
Пол Осман: Я веду команду SRE на доспехах. Кто здесь знает под броней в качестве технической компании? Кто-нибудь подущает под броней в качестве технической компании? Под броней делает спортивную одежду, рубашки и туфли. Мы также являемся компанией, которая принадлежит MapMyFitness, MyFitnessPal и Endomondo, которые являются всеми трекерами Fitness, которые наши клиенты используют для отслеживания целей питания или целей фитнеса. Это под броней, и конкретно это на самом деле моя команда. Мы работаем над надежностью этих потребительских приложений.
Я собираюсь поговорить сегодня о постмертемах и постмертемном процессе. Во-первых, я собираюсь немного уменьшить и поговорить о инциденте анализа, который на самом деле гораздо большее поле. Анализ инцидента — это изучение того, как фактически проанализировать, что произошло во время событий, которые мы можем учиться. Я собираюсь попытаться дать некоторые уроки, которые мы выучили, делая анализ инцидента.
Давайте поговорим о PostMortems. Термин исходит из медицины, и фактическое определение — это обследование мертвого тела, чтобы определить причину смерти. Это было первое, что пришло в голову, когда я поглотил это. Это ужасно. Я очень рад, что это не то, что я делаю. У меня огромное количество уважения к врачам. У меня нет желудка для этого, и я очень рад, что никто не склонен умирать, когда наши системы снижаются. Я уверен, что есть некоторые люди в этой комнате, для которого это правда, но это наверняка не правда для нас.
Причина, по которой я принося это, я ненавижу термин. Я ненавижу, что мы все решили, что Postmortem — это термин для того, что мы делаем. Я не думаю, что это, но я, вероятно, не собираюсь менять нашу индустрию нашей отрасли, поэтому мы пойдем с ним.
PostMortems должны делать с инцидентами, несчастными случаями, которые происходят в производственных системах, как правило, в этом контексте. Джон AllPaw, который бывший CTO Etsy, оказал инциденты таким образом: «Инциденты являются незапланированными инвестициями. «Есть две вещи, которые мне очень нравятся. Одним из них является акцент на том факте, что инциденты незапланировали. Они сюрпризы. Другое дело, что они инвестиции. Инциденты занимают время. Они добавляют напряжение к жизни людей, а не только клиентам, но внутри инженеров, людей, которые работают подсказки поддержки клиентов и другие заинтересованные стороны.
Это все люди, которые мы платим. Если мы сделаем эту инвестицию, то то, о чем мы говорим, когда мы обсудим постмектограммы, и постмертемный процесс — это возможности, чтобы попытаться получить доходность от этих инвестиций. Я всегда думал о анализе инцидента или постМортем, как возможности для попытки окупить некоторую доходность этой инвестиции этого инцидента. Как будут выглядеть эти возвращения?
Элементы действий — это один из способов, которым мы можем оказать некоторую доходность этих инвестиций. Всё, я все больше убедившись, что реальный возврат на самом деле в обучении. Если мы сможем выяснить способы улучшить, как обучение происходит внутри, после инцидента, мы улучшаем жизнь для наших клиентов и для наших инженеров, и мы, как правило, поправляемся как организация.
Всё, я все больше убедившись, что реальный возврат на самом деле в обучении. Если мы сможем выяснить способы улучшить, как обучение происходит внутри, после инцидента, мы улучшаем жизнь для наших клиентов и для наших инженеров, и мы, как правило, поправляемся как организация. На практике это примерно то, что может выглядеть, как этот процесс может выглядеть: вы строите гранул событий, которые произошли во время инцидента, вы получаете большую группу людей вместе — это может варьироваться в размере от людей, которые непосредственно участвуют в инциденте Быть открытым приглашением для всех в компании — и вы обсуждаете, что временные шкалы. Вы проходите к причинной цепи событий, а затем вы говорите о том, что прошло хорошо. Каковы вещи, которые мы должны сохранить? Вы говорите о том, что пошло не так. И, в зависимости от группы, это может быть очень интересным обсуждением. Из этого произойдет куча действий, и это настоящее значение, которое вы получаете.
Это, безусловно, как я раньше думал о инцидентах. Это была моя основная ментальная модель, и она даровала меня некоторое время. Он определенно резонирует с командами, которые я был включен, и есть к нему некоторое использование. Но каковы проблемы здесь? Я думаю, что есть несколько.
Одна из вещей, которые я нашел, заключается в том, что я был частью многих совещаний постммерта, где посещаемость была действительно бедной. Это ужасно. Это возможность учиться у вещей, которые произошли, и поправиться, поэтому это не должно быть так. Кажется, что мы могли бы делать что-то не так. Я также слышал, что люди обсуждают это как театр, и я, конечно, описал их как театр в прошлом, что означает, что есть ловушка, которую вы можете попасть в этот процесс отзыва, вы генерируете кучу элементов действий в конце И вы закончите, а затем эти предметы действий сидят в отставке навсегда. Это может действительно отвлечь к моральному морунению и способствовать первой проблеме, которую люди не рады идти к этим вещам.
Другое дело, что временная шкала может быть просто предварительно согласована. В этой модели вы уже собрали временную шкалу. Вы придумали то, что произошло к тому времени, когда вы получите группу людей вместе, чтобы обсудить это. Это может быть ограничение.
Одной из проблем, о которых я начал думать, является то, что большие встречи не лучшее место, чтобы поговорить об этом временной шкале. Если вы получаете большую группу людей вместе, и вы спрашиваете их об этом невероятно стрессовым, иногда травмирующим событием, а затем большая группа людей не собирается побуждать людей вернуться в это мышление, где они отвечали на инцидент. Может быть, это было 2:00 утра, может быть, они были под большим стрессом. Я не знаю о вас, но большая группа — это не то место, где я обязательно хочу пройти через это снова.
Одной из проблем, о которых я начал думать, является то, что большие встречи не лучшее место, чтобы поговорить об этом временной шкале. Если вы получаете большую группу людей вместе, и вы спрашиваете их об этом невероятно стрессовым, иногда травмирующим событием, а затем большая группа людей не собирается побуждать людей вернуться в это мышление, где они отвечали на инцидент. Попробуйте это вместо этого. Это то, что мы начали экспериментировать с собой, что имеет одно на одном интервью в рамках вашего процесса обзора. На самом деле, Эми Тоби имеет отличный разговор под названием One-One Sre. Эми говорит о своем опыте, проведении этих интервью в рамках процесса постммерм рассмотрения. Мы начали делать это внутренне на доспехах, и он резко улучшил опыт.
Одна из вещей, которые я нашел в проведении этих интервью, заключается в том, что вы можете делать то, что вы не можете сделать на больших встречах, что похоже на установку взаимопонимания, связать опыт, заставить людей говорить о том, что они были в мыслях, и какой контекст они имел во время ответа. У меня хватило, у меня были люди, дающие мне отзывы, когда мы проходим через процесс, подобный тому, где кто-то интервьюирует их, а затем мы собираемся вместе как большую группу, и мы читаем, что нам сказали, люди больше слышали, чем если бы На самом деле они только что дали пол во время процесса постмерского обзора. Это была действительно интересная на вынос для меня.
Но больше всего на что-то еще, некоторые из драгоценных камней, которые вышли из этих интервью, были удивительны. Люди говорят о эргономике инструментов, которые они используют, говорят о какой-то приборной панели, где они знают, не прав. Существуют всевозможные вещи, которые могут придумать этот контекст один на один, который может не обязательно всплыть иначе. Это подчеркивает то, что я хотел поднять. Я испытал это много И я слышал, что это многократно многое: безупречность не то же самое, что психологическая безопасность.
Психологическая безопасность является супер важной, и я думаю, что это отличная, но это не безупречно. То, что я имею в виду под этим, вы можете иметь группу людей, которые являются супер психологически безопасными или комфортными, чтобы быть уязвимыми перед собой, которые действительно близки и работают командой, и они все равно не придумывают эту информацию Отказ Если вы делаете вещи определенным образом, они все равно будут восприимчивы к ловушкам.
Психологическая безопасность является супер важной, и я думаю, что это отличная, но это не безупречно. Безопасность не является безопасным, чтобы сказать: «Я испортил я, — потому что это все еще сосредоточено в том, что он по-прежнему сосредоточен, когда человек, который привел плохое решение, которое фактически по своей природе не взорвалось, хотя это пример психологической безопасности. Это имеет тенденцию дразнить некоторые из этих тонких нюансов таким образом, чтобы мы использовали некоторые из плодородей.
Еще одна проблема, которую я, безусловно, пережил, заключается в том, что предметы действий никогда не делают. У вас есть эти процессы постмертем обзора, и эти предметы действий просто сидят внизу, что действительно делает меня вопрос, если они являются ключевым значением, которое выходит из этих вещей. Если элементы действий не выполняются, являются ли они важными или являются процессом, предназначенным для генерации предметов действий, и именно поэтому вы их сделали?
Еще одна вещь, которую я заметил вот то, что предметы действий выполняются, и вы не знали об этом. У вас была встреча, вы проходили через то, что прошло хорошо, что не пошло хорошо, и вы сгенерировали список действий. Оказывается, есть целая куча вещей, которые на самом деле работали инженеры. Ну, как они могли знать? У вас еще не было встречи, вы не придумали список действий, но это потому, что у них был контекст сразу после инцидента.
Если у вас есть этот инженер, кто похож на: «Вы знаете, что? Я имел значение, чтобы исправить эту вещь. Я знал, что это неправильно. У нас только что был инцидент; Я собираюсь запланировать как пять часов и просто починить эту вещь: «Это не собирается придумать в одном из этих встреч обязательно, но вы все еще хотите запечатлеть это. Это может быть более эффективно проведено через одно на одном интервью.
Что-то, что я пытался переносить этот фокус в направлении историй, а не действий. Элементы действий ценны, но истории, которые я думаю, находятся в том, что реальная стоимость от инцидентов может быть захвачена. Я говорю истории, потому что это применит две вещи в моей голове. Люди учится через рассказывание историй. Мы связываем опыт с помощью рассказывания историй. Я думаю, что просто кажется естественным, и это действительно заставляет меня думать как кто-то, кто делает анализ инцидента, когда я пишу документ или артефакт по инциденту, я собираюсь написать его, чтобы читать, потому что это история Я говорю. Это повествование, которое я формируюсь. И если я хорошо сделаю свою работу, то это будет то, что люди относятся к тому, что люди любят читать, что они рассказывают других инженеров: «О, ты новичок в команде, вы должны прочитать об этой вещи, которая произошла Отказ «Это просто становится частью знания команды, она становится частью вашей организации.
Мы связываем опыт с помощью рассказывания историй. Я думаю, что просто кажется естественным, и это действительно заставляет меня думать как кто-то, кто делает анализ инцидента, когда я пишу документ или артефакт по инциденту, я собираюсь написать его, чтобы читать, потому что это история Я говорю. Это повествование, которое я формируюсь. Это то, что я думаю, действительно может повлиять на команды и организации. Это драгоценные камни, которые мы можем раскрыть. Что это действительно подчеркивает для меня, это смещение в мышлении. Инженеры любят технические системы, потому что технические системы могут быть рассуждены. Мы можем подумать о них определенным образом, но источники устойчивости в наших системах на самом деле не являются техническими системами, а люди, которые их управляют. Если мы сосредоточим наши процессы при предоставлении ценности тем людям, то мы действительно можем поступить в источники устойчивости. Ваши системы никогда не будут полностью функционировать, они никогда не будут полностью актуальны, но то, что вы можете сделать, это вы можете дать возможность людям, имеющим адаптивную способность фактически реагировать на эти системы.
Инженеры любят технические системы, потому что технические системы могут быть рассуждены. Мы можем подумать о них определенным образом, но источники устойчивости в наших системах на самом деле не являются техническими системами, а люди, которые их управляют. Есть инциденты, которые я был частью, и сделал анализ того, где инженеры скажут такие вещи, как: «О, мы всегда знаем, что приборная панель не верна. Ну, тогда почему бы тебе не исправить это? Ну, может быть, есть куча причин. Может быть, у них нет времени, может быть, у них нет достаточно людей в своей команде, может быть, у них нет никого, кто знает об этой системе прямо сейчас. Но если они знают, что, если они усваивали это, то у них есть возможность сказать: «Дважды проверьте эти метрики. Не полагайтесь на тех.
Это типы вещей, которые могут дать вам удивительные адаптивные возможности. Даже в этом примере это может быть что-то более неразмерное, более тонкое и нюансированное. Это не так просто исправить, но если люди учатся, и люди повторяют истории о инцидентах, то они будут иметь возможность реагировать на инциденты гораздо более эффективно.
Это также проинструктировано на другой смену мышления, которое неудобно для меня как инженера, или, по крайней мере, это было. Приходит к выводу, что наша цель при выполнении этих постмортизаций на самом деле не понимать, что произошло. Не понимать четкую причинную цепочку событий, которые привели к инциденту. На самом деле это понять контекст, который люди работали в том, чтобы реагировать на инцидент, который либо помог, либо препятствовал их способности принимать решения. Это то, что вы можете провести только одно на одном интервью, сосредоточившись на рассказке, а не на предметах действий. Что проходило через чью-то голову? Какие обстоятельства они занимались в то время? Вещи, которые помогли вам, — это ваши источники устойчивости. Вещи, которые препятствуют вам, — это то, что вы можете атаковать как организацию. Постарайтесь выяснить, что вы можете сделать, чтобы ограничить эти вещи, которые препятствуют способности людей принимать решения во время инцидента.
Приходит к выводу, что наша цель при выполнении этих постмортизаций на самом деле не понимать, что произошло. Не понимать четкую причинную цепочку событий, которые привели к инциденту. На самом деле это понять контекст, который люди работали в том, чтобы реагировать на инцидент, который либо помог, либо препятствовал их способности принимать решения. Это была эволюция того, как мы думали о инциденте анализа. Он ушел от этого очень линейного способа взглянуть на вещи. Когда я впервые начал, мы использовали систему, называемую 5 Whys. Это не без его использования. Что-то, что я всегда повторяю, когда я говорю об этом, это все умственные модели неверны, некоторые полезны. Это неправильно, но это полезно. Я не собираюсь полностью мучить его. То, что я собираюсь сказать, так это то, что 5 дюймы действительно могут ограничить ваш анализ.
Когда мы начали, для любого, кто не знаком с 5 Whys, это основная идея, которую вы начинаете с инцидента, и вы работаете на пути назад, спрашивая, почему X произошло? Ну из-за X или Y. Почему у случилось? Из-за Z. После пяти лет вы приедете на эту корневую причину. Что интересно в том, это поезжает вас подумать о причинных цепях событий.
В этой области проделана много работы. Там есть женщина по имени Нэнси Левенсон, который гигант в области аварийного анализа. Она написала тонны об этом и практикует анализ несчастных случаев в масштабах, которые я даже не могу понять, и она заметила, что разные группы, использующие 5 Whys, прибудут на разные корневые причины. Это немедленно делает вас подозрительным к способу. На каждом этапе, на каждом этапе вы фактически ограничиваете обсуждение одной причинной цепочки событий и устраняя целую кучу других возможностей, которые на самом деле являются богатыми источниками информации от вашего инцидента.
Если вы получите разные группы людей, глядя на ту же аварию или инцидент, используя такую техника, как это, поступающие на разные выводы, что также приводит к другой вещи, которая является этой идеей единственного основной причины. Если вы можете получить пять групп людей, применяющих 5 дюйв к одному и тому же событию, и они придумывают пять разных причин корней, возможно ли, чтобы не было такой вещи, как основной причиной? Что существует множество факторов вклад в любой конкретный инцидент? Если мы сосредоточимся на одной корневой причине, мы делаем произвольные решения о том, где мы прекратим наш анализ, что означает, что мы также ограничиваем то, что мы можем научиться у этого инцидента. Вместо корневой причины анализ, мы склонны думать о способствующих факторах.
Если вы можете получить пять групп людей, применяющих 5 дюйв к одному и тому же событию, и они придумывают пять разных причин корней, возможно ли, чтобы не было такой вещи, как основной причиной? Что существует множество факторов вклад в любой конкретный инцидент? Когда я впервые присоединился к доспехам, мы делали корневые призванные анализы, мы делали 5 сжиманий, и мы на самом деле сделали еженедельные корневые встречи по анализу. Идея была, если бы мы могли найти все разбитые вещи и исправить все сломанные вещи, то мы будем в лучшем мире. Я думаю, что это продолжалось около года, и мы увидели нулевое улучшение. Мы увидели, что заинтересованы в этих ретроспективах, и мы начали спрашивать: «Как это работает для нас?» Ответ был, это не было.
Это то, что наш скорректированный процесс выглядит сейчас, когда проходив некоторые из этих смещений и включив эти практики, которые пытаются выявить некоторые довольно нюансированные концепции. Теперь мы анализируем данные и что это означает, что происходит инцидент, и кто-то предоставляет ответственность за пастырь процесс анализа инцидента. Они собираются пройти какие данные, которые мы захватили во время этого инцидента. Может быть чат транскрипты, могут быть видеоконференции, могут быть какой-то записанным мостом или что-то в этом роде. Они собираются определить людей, которые играли ключевую роль в инцидентах и выбирают тех людей как интересных людей для интервью, а затем запланировать интервью на этих участниках и получить их перспективы и собирать информацию.
Мы на самом деле спрашиваем людей, если они возражают против, если мы записываем те для наших собственных целей как аналитик инцидента. Я удивлен тем, сколько людей похожи: «Да, пожалуйста. У меня нет проблем. «Это действительно полезно для меня, когда я пройду эту информацию потом и собирая заметки, чтобы иметь запись этого разговора. Это также позволяет мне во время фактического однонаправленного фокусировки полностью сосредоточиться на задании вопросов этого человека и не сидеть там с ноутбуком, необходимым делать заметки, которые могут быть отчуждены.
Из этого процесса собеседования мы вернемся и анализируем. Иногда мы выбираем новых людей к интервью. Это может вернуться назад и вперед несколько раз и в конечном итоге мы пишем проект анализа. Это структурировано для чтения, не то, что мы хотим, чтобы клиенты получали. Это то, что мы хотим, чтобы люди были взволнованы, чтобы прочитать. Мы стараемся подойти к нему, как будто мы пишем повествование. Когда мы встречаемся с группой, мы делаем приглашения открытыми под броней. Это действительно полезно, потому что он может получить больше людей, взволнованных в изучении этих вещей. Мы фактически нашли удивительное количество людей, желающих показать до определенных отзывов постмертема.
Во время этих обзоров человек, который поручено выполнить этот анализ, фактически читает информацию. Как я уже говорил ранее, у меня были люди говорят, что они действительно чувствовали, что их точка зрения была представлена еще больше, чем если бы мы просто дали им пол. Это возможность сказать: «Эй, я ничего не пропустил? Есть ли что-нибудь искаженное здесь? Это неправильно? » Некоторые действительно интересные обсуждения могут выйти из этого, потому что впервые вы берете все эти наверительные на один на один, и вы объединяете их, и вы видите, что считает, что Группа считает важна или думает, что не важно.
Это может пойти вперед и назад. Вы можете встретиться и вернуться, чтобы пересмотреть свой проект. Вы можете включить обратную связь из группы людей, которые были вовлечены в инцидент, а затем производить что-то новое, а затем встретиться с людьми снова и сказать: «Эй, как этот взгляд? Я понимаю это правильно? Делает ли это точно представлять то, как это было частью этого инцидента, и эта захват много учащихся, которые мы имели из этого инцидента? » В конце концов вы опубликуете с изменениями.
Одна из вещей, которые я стараюсь быть осторожным, это документировать предметы действий как вещи, которые произошли по пути, потому что, вроде бы, чтобы я сказал, что предметы действий не обязательно должны выходить в конце инцидента. Это не похоже на функцию, которую вы вводите инцидент, вы получаете элементы действий. Элементы действий могут быть вещими, которые инженеры делали в моментах после инцидента. Они могут быть вещими, которые произошли в следующем спринте после инцидента, если прошло это количество времени. Хорошо документировать эти вещи. Мне нравится следить за этими вещами, потому что это дает нам определенное доверие. Мы можем оглянуться назад и сказать: «Посмотрите на все вещи, которые люди самоорганизуют, чтобы сделать в ответ на эти инциденты».
Предметы действия не обязательно должны выходить в конце инцидента. Это не похоже на функцию, которую вы вводите инцидент, вы получаете элементы действий. Элементы действий могут быть вещими, которые инженеры делали в моментах после инцидента. Они могут быть вещими, которые произошли в следующем спринте после инцидента, если прошло это количество времени. Что касается публикации, это то, что мы все еще боремся. У нас нет идеального решения для этого, но сделайте эти вещи доступными. У меня есть будущее видение в моей голове, где у нас есть какой-то внутренний инструмент, который делает эти вещи доступными для тегов, где новый инженер может просто прийти на борт и просто сказать: «Покажи мне все, что когда-либо случалось с этой системой, или все, что вовлечено в эту услугу это я работаю. «
Некоторые конкретные вынос, которые я бы поощрял, если кто-то из этого резонирует с вами, практикуйте интервьюирующих респондентов в рамках вашего постммерного процесса. Это был действительно интересный опыт для меня. Я бы определенно поощрял это. Это также поможет вам связаться с большим количеством людей в разных командах, таким образом, что вы не были, возможно, ранее сделать. Сосредоточиться на историях вместо предметов действий. Подумайте об инцидентах как возможности для рассказывания историй и для вещей, которые вы можете узнать и усваивать в вашей организации.
Практикуйте интервьюирующие респонденты как часть вашего постммерного процесса. Это был действительно интересный опыт для меня. Я бы определенно поощрял это. Это также поможет вам связаться с большим количеством людей в разных командах, таким образом, что вы не были, возможно, ранее сделать. Сосредоточиться на историях вместо предметов действий. Подумайте об инцидентах как возможности для рассказывания историй и для вещей, которые вы можете узнать и усваивать в вашей организации. Поймите, что я не собираюсь попытаться убедить вас всех полностью изменить свой процесс, но, по крайней мере, понять, что анализ 5 и корневой причины может ограничить наши расследования. Они могут сосредоточиться на одном вместо множества возможностей. Написать сообщения об инцидентов для чтения. Практикуйте запись как навык. Если вы участвуете в мире SRE, вы общаетесь, и это действительно важный навык, который я думаю, чтобы попытаться улучшить.
Сосредоточьтесь на людях больше, программное обеспечение меньше. Люди — огромная часть вашей системы. Они там, чтобы защитить, когда дела идут плохо, и они там, чтобы убедиться, что системы всегда улучшаются. Дайте им знания, дайте им возможности рассказать свои истории и понять, что они проходят через эксплуатацию систем, которые мы строим. Это одна из областей, где я думаю, что как люди программного обеспечения, у нас много учатся у людей в других отраслях о том, как они делают этот материал.
Если вам понравилось, проверьте эти ресурсы:
- Устойчивость в действии, эпизод 1: рассказы в инцидентах с Лорином Хочштейном
- Улучшение постммерных практик с ветеран Google Sre, Стив МакГее
- 5 лучших практик на гвоздь постметеем
Оригинал: «https://dev.to/blameless/improving-postmortems-from-chores-to-masterclass-with-paul-osman-45gb»