Шум оповещения — очень распространенная жалоба на звонок, ведущую к усталости и выгоранию на вызове. Эта статья — попытка помочь людям решать эту проблему.
Что такое усталость оповещения?
Большинство организаций сегодня имеют расширяющий набор инструментов для мониторинга своих приложений и услуг. Это для обеспечения того, чтобы все метрики системы, события, журналы и т. Д. отслеживаются, чтобы быть в курсе того, как делают их системы. Но это действительно невозможно постоянно контролировать различные приборные панели этих инструментов. Итак, имеет смысл, что когда эти инструменты обнаруживают все, что даже дистанционно важно, есть уведомление о том, что команда получила их информацию об этом. Это, в свою очередь, позволяет инженерным командам знать, насколько надежными их системами являются и являются активными во избежание простоя.
Но проблемы возникают, когда инженеры начинают затоплять оповещениями от их установки мониторинга. Чистый объем предупреждений, которые в основном информационно-информационные и не обязательно являются намного выше по сравнению с теми, которые являются фактическими инцидентами, которые нуждаются в немедленном действии.
Таким образом, типичный день в жизни на звонковом инженере будет проходить через океан оповещений на их платформе по управлению инцидентами. Инженеры, которые испытали это, знают, как он может получить. Действительно важные инциденты начинают терять в лишнем шуме предупреждений. Это усталость.
Шум оповещения может убить по вызову производительности
Удаление усталости стала все более болезненной и широко распространенной проблемой в DevOps и командах SRE, учитывая сумму, доступную им данные. В то время как вся точка использования мониторинга инструментов для отправки оповещений является создание культуры упреждающего управления инцидентами, он медленно начинает уменьшаться всей цели. Вы знаете, что у вас есть проблемы с целью исправления, если громкость оповещений с низким уровнем приоритетов/предупреждений значительно превышает количество доступных предупреждений до такой степени, что реальные, инциденты высокого напряженности в конечном итоге обнаруживаются намного позже или нет.
Из этого следует, что супер важно обеспечить, чтобы на звонке инженеров, которые работают над реагированием на эти инциденты, не перегружены шумом предупреждения.
Проблема теперь становится сосредоточенной вокруг нахождения способа захвата всех данных, но в то же время гарантируя, что вы особенно уведомляете только для действий, или по сути, нахождение инструмента, который может различать оповещения и инциденты. Ни один инженер не хочет проснуться на 3 часа утра, чтобы узнать, что это ложная тревога.
Как Кевин теряет свое здравомыслие из-за усталости оповещения: История на звонке
Давайте посмотрим на это иллюстративный путь.
Это Кевин, и он является Sre (толпа приветствует? Хахаха). Он имеет дело с услугами и гарантирует, что они здоровы. И чтобы все это все, ему нужно сделать это, не теряя своего здравомыслия.
Оповещение разбудило его. Еще один разбудил его еще больше.
И это Hercolean Task, когда он просыпается на доверенном уровне в 1 утра.
Похоже, что сам зомби, и король триллера поп-фриллера на его телефоне не поднимается темой этой несчастной серии событий.
Не суди его. (Потому что это триллер 🧟 на петле).
Итак, Кевин видит, что служба отправила предупреждающее сообщение для использования CPU. Это, вероятно, займет неделю, чтобы она переехала в критическую стадию. Он предпринял шаги, чтобы исправить это, обращаясь к своей команде. Но служба продолжает отправлять ему уведомления, нарушая его сон.
Хотя он понимает, что инструмент оповещения просто выполняет свою работу, пинговая ему безжалостно, пока он не просыпается до своих обязанностей, он не видит причин потерять его сон или здравомыслие, если не будет серьезной производственной проблемы (он тайно монирует, что это не Кейс каждый раз, когда звонки телефона)
Вот как он потерял здравомыслие всего за час. Я почти уверен, что теперь он немного болен триллером.
Сроки D-Day:
12:58:59 PM Thrilheer 01:00:22 сна лишено сна, хлопая по лицу, чтобы оставаться бодрствующим и увидеть журналы аудита 01:21:31 Проснулся из неожиданного сножения, узнал, что космическое место больше не работает из-за слюны Короткое замыкание 01:30:01 AM Copy Spaces Использование мыши из сайтов и вставок в GreeP, чтобы фильтровать журналы 01:36:03 am Eureka Moment, после чего последует мысль о «о съемке, я отчаянно сейчас» 01:40:40 am Доставка еды прибывает. Высокая точка этого инцидента до сих пор. 01:40:41 утра триллер 01:47:12 BURP 01:52:15 УМ кофе наполнение. 01:52:34 утра Триллер 02:00:44 Thriller 02:12:49 am Thriller 02:33:52 am Thriller 02:45:53 am Thriller 02:52:53 am Thriller 02:52:53 am Triller Triller Triller Trillerer 02:56:54 am Триллер триллер триллер триллер триллер триллер триллер 03:03:00 играл в кофе. Sparks 03:08:17 просыпается утка. _Duck не так взволнован 03:10:29 Горячий воздух к лицу … _Э из утки или выхлоп CPU 03:27:05 утра Удается найти починить 03:29:30 Определяет, что его телефон пережил 6 дюйма 03:37:15 Утра лицом попадает подушку, когда он созерцает, бросая свой телефон из окна
Кевин настраивает Деупликация в эскадачении
Кевин увидел, что его оповещения выливали из Прометея. Он понимает, что не может продолжать обезжирить свой телефон в кофе, когда предупреждает наводнение.
Он решает бороться с шумом оповещения один раз и навсегда после разрешения проблемы продукта.
Ему удается настроить правила дедупликации на его платформе.
Прометей жаловался на развертывание обновлений прокатки, а некоторые совершенно несвязанные проблемы использования процессоров каждые 10 секунд или около того. Он выполняет курс и исправляет обе проблемы (видимо, это происходит один раз в месяц).
Теперь он катится на рукавах и решает настроить де-дублирование для его предупреждений.
Для вопросов развертывания он решает группировать и деуплиплировать оповещения на основе затронутых услуг. Для вопросов, связанных с использованием процессора, он решает группировать и деуплиплировать оповещения на основе пострадавших услуг, но создаю новое предупреждение, если одно и то же событие уже произошло в 50 раз. Он видит, что полезная нагрузка на оповещение для одного конкретного оповещения заключалась с развертыванием этой услуги.
{ «Статус»: «стрельба», «Аннотации»: { «Описание»: «Реплики развертывания не обновляются для платежей», «Резюме»: «Развертывание не было должным образом отказано» }, «Startsat»: «2019-11-112T12: 58: 59Z», «Заключительно»: «0001-01-01T00: 00: 00z», «Генераторурл»: «..», «Этикетки»: { «AlertName»: «DeployPlentReppleSnoTupdated», «Развертывание»: «Платежи», «…»: «…», «Kubernetes_namespace»: «Мониторинг», «Серьезность»: «Предупреждение» } }
Он пишет правило для дублирования инцидента на ошибки развертывания.
(paint.labels.alertname.labels.AlertName) && (Current.labels.AlertName) && (paint.labels.deployment.labels.deplobement)
Он пишет подобное правило для предупреждений на основе использования ЦП и добавляет еще один, чтобы снова стрелять в этот инцидент, только если он произошел в 50 раз подряд.
{ «Статус»: «стрельба», «Аннотации»: { «Описание»: «Использование ЦП выше 60% в Postgres-Working-7UFLF558TX-ULR5H POD», «Сводка»: «Использование ЦП высоко в Postgres-Worker-7UFLF558TX-ULR5H POD» }, «Startsat»: «2019-12-11T01: 40: 39Z», «Заключительно»: «0001-01-01T00: 00: 00z», «Генераторурл»: «..», «Этикетки»: { «Alertname»: «Cputhrottlinghigh», «Под давлением»: «Postgres-Worker-7UFLF558TX-ULR5H», «Развертывание»: «Postgres-работник», «…»: «…», «Kubernetes_namespace»: «Мониторинг», «серьезность»: «Критический» } }
Правило, что Kevin используется для этого:
(paint.labels.alertname.labels.AlertName) && (Current.labels.AlertName) && (paint.labels.deployment.labels.deplobement) && event_count <50.
По крайней мере, он не будет ненавидеть триллер сейчас + нет Телефон Данкинг + нет кофейных путей + Самое главное, больше не предупреждает шум !!!
TL; доктор
Кевин, наконец, удается настроить правила де-дублирования для его предупреждений PROMETHEUS и устанавливает тяжести для инцидентов, чтобы просыпаться только для действительно Действительно важные.
Кевин умный. Быть как Кевин.
Первоначально опубликовано SQUADCACT BLOG
Оригинал: «https://dev.to/squadcast/reducing-on-call-alert-fatigue-with-deduplication-4igg»