TL; DR ноты из статей я читал сегодня.
Улучшение инцидентов ретроспектива
- Ретроспективы инцидентов являются неотъемлемой частью любой хорошей инженерной культуры.
- Часто слишком много фокусировки на триггерах для инцидента. Ретроспектива должна вместо этого пересмотреть временные шкалы инцидентов, элементов восстановления и найти владельцев для элементов восстановления.
- Ретроспектива следует использовать как возможность для более глубокого анализа в системах (и люди, и технические) и предположения, лежащие в основе этих систем.
- Нахождение предметов рекультивация должны быть отделены от ретроспективного процесса. Это помогает участникам быть свободным в проведении более глубокого расследования, поскольку они невыразится от поиска никаких мелких объяснений.
- Это хорошая практика, чтобы облегчить ретроспективный шаблон, который вы используете, потому что любой шаблон будет нераспределен для захвата уникальных характеристик различных инцидентов. Кроме того, жестко придерживаясь к шаблону означает ограничения открытых вопросов, которые могут быть вполне полезны при развитии ваших систем в правильном направлении.
Полный пост здесь , 6 минут чтения
3 мифов наблюдаемости
- Миф № 1 заключается в том, что вы будете испытывать меньше инцидентов, если вы реализуете стратегию наблюдательности — просто реализация стратегии не влияет на количество возникновений событий, но имеющее его в месте означает, что когда возникает достаточная проблема, у вас будет достаточно данных телеметрии реши это.
- Миф № 2 заключается в том, что получение инструмента наблюдаемости — хорошая стратегия — Наличие платформы наблюдеемости недостаточно самостоятельно. Если наблюдательность не станет ядром для ваших инженерных усилий вашей компании культуры вашей компании, инструмент не может помочь.
- Миф № 3 заключается в том, что реализация наблюдаемости дешевле. Поскольку наблюдаемость является основной частью любой современной технической инфраструктуры, вы должны подумать о вашем бюджете наблюдательности в процентах от вашего общего бюджета инфраструктуры. Значение, полученное из хорошей программы наблюдательности с точки зрения эффективности, скорости и удовлетворенности клиентов, превосходит расходы, которые он несет.
Полный пост здесь 4 минуты читать
Отбор проб в наблюдаемости
- Вы можете использовать API для отбора проб в качестве библиотек приборов, которые позволяют устанавливать стратегии или скорости отбора проб. Для бывшего Go’s Runtime.setcpuprofilerate , который позволяет устанавливать скорость профилирования процессоров.
- Подкомпоненты системы могут понадобиться разные стратегии отбора проб, и решение может быть довольно субъективным: для фоновой работы с низким трафиком вы можете попробовать каждую задачу, но для обработчика с низким содержанием задержки, вам может потребоваться агрессивно, если трафик высока или вы можете образец только при выполнении определенных условий.
- Рассмотрите возможность сделать стратегию отбора проб динамически настраиваемой, так как это может быть полезно для устранения неполадок.
- Если собранные данные отслеживают системную концепцию до конца, и коллекция охватывает более одного процесса, как распределенные следы или события, вы, возможно, захотите распространять решение отбора проб от родителей к дочернему процессу через заголовок.
- Если сбор данных недорого, но передача или хранение, вы можете собрать 100% данных и применить фильтр позже, чтобы минимизировать при сохранении разнообразия в образце, сохраняющихся краевые чехлы специально для отладки.
- Никогда не доверяйте решению выборки, распространяемого от внешнего источника; Это может быть атака DOS.
Полный пост здесь 4 минуты читать
Получите эти заметки непосредственно в свой почтовый ящик каждый будний день, подписавшись на мою рассылку в рассылку, внипте ().
Оригинал: «https://dev.to/mohanarpit/how-to-improve-incident-retrospectives-and-a-few-thoughts-about-observability-5fjo»