На пути к операционному совершенству (5 серии деталей)
С тех пор, как я опубликовал свою серию блогов На пути к операционному совершенству Я получил относительно большое количество обратной связи. Но один вопрос, в частности, выделялся.
» Можете ли вы поделиться шаблоном инцидента после смерти? «
В этом сообщении я поделюсь примером Шаблон инцидента, Что я надеюсь, поможет вам начать. Я также поделюсь немного Дос и Не так То, что я видел работу для широкого разнообразия клиентов — как внутри, так и внешне.
Что такое посмертная?
Посмертный процесс — это процесс, когда команда размышляет о проблеме — например, неожиданная потеря избыточности или, возможно, неудачное развертывание программного обеспечения — и документирует, в чем проблема и как ее избежать в будущем.
«Посмерти не о том, чтобы выяснить, кого винить в произошедшем инциденте. Они о выяснении, посредством данных и анализа, Что случилось, почему это случилось, и как это можно остановить снова ».
В Amazon мы называем этот процесс исправления ошибок (COE), и мы используем его, чтобы учиться на наших ошибках, будь то недостатки в инструментах, процессах или организации.
Мы используем COE для выявления факторов, способствующих неудачам и, что более важно, способствуем постоянному улучшению.
Чтобы узнать больше о нашем процессе COE, пожалуйста, ознакомьтесь с моим любимым RE: Invent 2019 Talk от Бекки Вайс, старшего главного инженера в AWS.
Инцидент посмертный шаблон
Ниже Пример инцидента посмертного шаблона.
Я не утверждаю, что этот шаблон идеален — просто это пример, который может помочь начать.
Если вы думаете, что чего -то не хватает, если вы согласны или не согласны с какой -либо конкретной частью этого шаблона, пожалуйста, поделитесь со мной своими отзывами, оставив комментарий ниже.
Голая версия
Для всех Let-me-Get-Straight-to-точка Чемпионы там-вот шаблон с голой костью.
https://medium.com/media/3af3e1c22e9bc3f9a51b18a56145b994/href
С расширенной вырезанной версией
В этой расширенной версии я буду расширять каждую из разных частей шаблона, предполагая, что может принадлежать каждому разделу.
Заголовок:
Описательное название (служба XYZ не удалась, затронув клиентов в регионе ЕС)
Дата инцидента:
Дата мероприятия.
Владелец:
Название владельца посмертного процесса.
Комитет по рецензированию:
Список людей, которые будут проверять качество посмертной, перед публикацией его.
Теги:
Список тегов или ключевых слов для классификации события и облегчения будущего поиска и анализа. Пример: конфигурация, база данных, зависимость, скрытая
Резюме:
Краткое изложение события.
Вспомогательные данные:
Метрические графики, таблицы или другие данные, которые лучше всего иллюстрируют влияние этого события.
Воздействие на клиента:
Обсудите влияние клиентов во время мероприятия. Явно упомяните количество затронутых клиентов.
Анализ ответа на инцидент:
Пример вопросов, которые вы могли бы ответить: Было ли это событие обнаружено в ожидаемое время? Как это было обнаружено? (например, тревога, билет клиента) Как может быть улучшено время обнаружения? Работала ли эскалация соответствующим образом? Будет ли ранее эскалация уменьшить или предотвратить событие? Как вы узнали, как смягчить мероприятие? Как может улучшить время смягчения последствий? Как вы подтвердили, что событие было полностью смягчено?
Пост-инцидент анализ:
Пример вопросов, которые вы могли бы ответить: Как были диагностированы факторы, способствующие диагностике? Как может улучшить время диагноза? У вас был фактический элемент отставания, который мог бы предотвратить или уменьшить влияние этого события? Если да, то почему этот элемент не был сделан? Можно ли использовать правило программной проверки (например, aws config ) для предотвращения этого события? Изменение запустило это событие? Как было развернуто это изменение — автоматически или вручную? Могут ли гарантия в развертывании предотвратить или уменьшить влияние этого события? Можно ли это быть пойман и откатится во время развертывания? Это было проверено в стадии? Если да, то почему это прошло? Может ли больше тестов предотвратить или уменьшить влияние этого события? Если это изменение было ручным, была ли пьеса? Была ли эта пьеса практиковалась, проверялась и недавно просмотрела? Определенный инструмент/команда запустила событие? Могли бы предотвратить или уменьшить влияние этого события? Был ли какая -либо защита? Если нет, то почему никто не был на месте? Была ли проведена готовность к производственной операции или хорошо архизированный обзор в системе (-ах)? Если нет, почему? Когда была проведена последняя оценка? Может ли обзор предотвратить или уменьшить влияние события?
График:
Подробно все основные точки события с их временем (включали часовой пояс) с кратким описанием. Пример: 09:19 EEST — в базе данных не хватает соединений. График ссылки и журнал
Погружение глубоко по факторам, способствующим:
Начните с проблемы. Продолжайте задавать вопросы (например, почему?), Пока вы не доберетесь до нескольких факторов. Нет единой причины для неудачи Анкет Итак, продолжая! Зонд в разные направления — инструменты, культура и процессы. Никогда не останавливайся на человеческих ошибках (Например, если оператор вводит неправильную команду, спросите, почему никаких гарантий не было, или почему не было рассмотрено действие, и почему у этой команды не было списка?) Определите элементы действия против всех факторов, способствующих.
Уроки выучены:
Опишите, что ваша команда забирает от этого события. Что вы узнали, что поможет вам в будущем предотвратить подобные события? Какие неожиданные вещи произошли? Какой процесс сломался? Извлеченные уроки должны коррелировать напрямую, если это возможно, с элементом действия.
Пункты действий:
Список элементов действия с заголовком, владельцем, датой срока, приоритетом и ссылкой на элемент отставания, созданный для последующего наблюдения. Пример: оцените более короткий тайм-аут для Get API 123, Adhorn, 3 июля 2020 года, высокий приоритет, ссылка на элемент отставания.
Чем заняться, когда вы делаете
- В общем, Выберите старших, опытных владельцев и рецензентов, чтобы обеспечить высококачественное завершение посмертного.
- Правильные посмерти глубоко погружаются в проблемы. Ничто не осталось без ответа, если это не станет предметом действия.
- Попрос ваших предположений, с учетом эвристики и борьбы с предубеждениями ** (Смотри ниже).
- Рецензенты должны быть полностью уполномочены отвергнуть посмерти за то, что он не встретил высококачественную бар.
- Просмотрите последние посмерти на собраниях с более широкой организацией.
- Будьте умны в том, что может быть достигнуто в краткосрочной перспективе, не перепроизводите.
- Используйте существующие посмерти и предыдущие уроки, полученные для разработки новых моделей «передовой практики», и установить механизмы, чтобы поделиться знаниями с остальной частью организации (например, настоящие посмерти в еженедельных операционных обзорах)
- Кодифицируйте и автоматизируйте уроки, полученные, когда это возможно.
- Не позволяйте посмертным перевозкам долгое время.
* * Эвристика и предубеждения, чтобы следить за (в любом конкретном порядке):
- Уставление подтверждения — «Тенденция искать, интерпретировать, одобрить и вспоминать информацию, которая подтверждает или поддерживает свои предыдущие личные убеждения или ценности».
- Затонувшая плата за плату — «Тенденция для людей полагать, что инвестиции (то есть, потопные затраты) оправдывают дальнейшие расходы».
- Обычная ошибка веры — «Если многие так верят, это так».
- Задним числом предвзятость — «Тенденция для людей воспринимать события, которые уже произошли как более предсказуемые, чем они были на самом деле до того, как события произошли».
- Основная ошибка атрибуции — «Склонность верить в то, что люди делают, отражает то, кто они».
Вещи, которых следует избегать, когда вы делаете
- Не вините людей или команды. Точно так же, не назначайте и не подразумевайте виню другим, отдельным лицам, командам или организациям. Вместо этого определите, что произошло, и вопрос Почему Эти вещи произошли.
- Остановка при ошибке оператора не так. Это признак того, что вы не ушли достаточно глубоко. Подумайте о ситуации, которая привела к тому, что оператор запустил мероприятие? Почему оператор мог сделать такую вещь? Было ли это отсутствие надлежащих инструментов, проблемы в культуре или отсутствующий процесс?
- Не делайте посмерти штрафные. Не делайте посмерти, если никто не получит ценность и найдет улучшения.
- Избегайте открытых вопросов или предметов действия. Экспункты, такие как «создание обучения» и «улучшение документации», не полезны. Либо вы не зашли достаточно глубоко, либо вам не нужна была посмертная.
- Элементы действия должны сосредоточиться на том, что можно сделать в более короткой сроке, чтобы смягчить событие.
- Не пытайтесь исправить все в вашей системе за одну посмертную. «Нам нужно изменить общую архитектуру нашей системы сейчас» или «нам нужно переехать в Фортран», не являются правильными элементами.
- Не тратьте необоснованное количество времени на написание посмерти. Они должны быть сделаны относительно быстро и с высококачественным баром.
- Не пишите посмерти по выходным или спешите. Обычно он может подождать в следующий понедельник.
Вот и пока, ребята. Надеюсь, вам понравился этот пост. Я хотел бы услышать, что работает, а что нет для вас, поэтому, пожалуйста, не стесняйтесь поделиться своими отзывами и мнениями. Большое спасибо за чтение:-)
— Адриан
На пути к операционному совершенству (5 серии деталей)
Оригинал: «https://dev.to/aws/incident-postmortem-template-18m7»