Рубрики
Uncategorized

Увеличить инцидент

Я хотел дать вам обновление моего последнего блога на MTTR, показав вам нашу интеграцию Pagerduty в AC … Tagged с DevOps, SRE.

Я хотел дать вам обновленную информацию о моем последнем блоге на MTTR, показав вам наш PAGERDUTY Integration в действии.

Как я уже говорил, вы, вероятно, очень заботитесь о среде для обнаружения (MTTD) и среднего времени для решения (MTTR). Вы также, без сомнения, знакомы с мониторингом, ответом на инцидент, военными комнатами и тому подобным. Кто из нас не был вырван из постели и не оторван от семьи или друзей в самое неподходящее время? Я знаю воочию от запуска поддержки мирового класса и организаций SRE, что все сводится к двум простым вещам: 1) У всех программных систем есть ошибки и 2) Это все о том, как вы отвечаете. В то время как некоторые клиенты могут сочувствовать № 1, без исключения, все они все еще ожидают раннего обнаружения, подтверждения проблемы и почти присоединенного разрешения. О, и лучше никогда больше не повторяться!

Быстрый Mttd. Проверять!

Pagerduty явно является лидером в реагировании на инцидент и управлении эскалацией по вызову. Для Pagerduty существует более 300 интеграций для анализа цифровых сигналов практически любой системы с поддержкой программного обеспечения для обнаружения и определения проблем в вашей экосистеме. Когда инцидент создается с помощью одной из этих интеграций мониторинга, скажем, инструмент APM, Pagerduty мобилизует правильную команду за считанные секунды (прочитайте: это когда вы получите «страницу» во время 5 -летия вашей дочери). Быстрый Mttd. Проверять!

Но как насчет MTTR? Под r я имею в виду решимость

Все отличные инструменты реагирования на инциденты будут иметь механизмы автоматизации книг, которые могут помочь восстановить Работа системы быстро в некоторых типичных случаях. Но это не доходит до первопричины, поэтому вы можете понять и разрешение Проблема и не позволил этому повториться. Для этого введите слишком широкую «военную комнату». Этот термин и концепция были впервые придуманы в 1901 году, но, вероятно, был наиболее известен Уинстоном Черчиллем во время Второй мировой войны, где военная комната Кабинета была эпицентром сбора разведки, анализа данных и связи на протяжении всей войны. Тогда это были телеграф, телефоны, радиосигналы и карты на стене. Сегодня это, вероятно, виртуальная комната с использованием Zoom, Slack, визуализаций в реальном времени, мобильных телефонов и наиболее важных журналов. Миллионы и миллионы бревен! Но преобладающее отношение военной комнаты осталось неизменным — «Если вы проходите через ад, продолжайте».

Первоначальный сигнал, вызванный инцидентом, был, вероятно, был из -за предупреждения, который, возможно, обнаружил, что предопределенный порог был «не допустимым», каким образом простой или сложной, что может быть. Или, возможно, из-за оповещения, которое вы определили в пинг-инструменте или, может быть, какой-то домашний живой хвост, наблюдающий за шипами в количестве ошибок или в некоторых схожих шаблонах. Какими бы ни были средства, он был основан на некоторых предопределенных правилах, чтобы обнаружить симптомы проблемы. В большинстве случаев следующим шагом является определение основной причины. Например, симптом, который вызвал сигнал, мог бы заключаться в том, что задержка была слишком высокой, но это ничего не рассказывает о основной причине.

Независимо от того, формализуете ли вы назначенную военную комнату для конкретного инцидента или нет, две вещи уверены: 1) своевременное, тщательное и точное общение между членами команды имеет первостепенное значение и 2) Скорее всего, вы будете искать через журналы и сверлить различные показатели, чтобы добраться до первопричины. И это Брутная сила поиска через журналы И метрик, вероятно, ваш ад.

Прекратите проходить через ад

Многие инструменты мониторинга начали использовать различные методы машинного обучения и обнаружения аномалий, чтобы повысить этот первый сигнал для запуска ответа инцидента, часто с помощью таких инструментов, как Pagerduty. Тем не менее, эти методы по -прежнему требуют слишком большого количества человеческого ввода для рук, каких метрик для мониторинга и для выбора конкретных алгоритмов или параметров настройки. Обнаружение аномалий в инструментах мониторинга преимущественно ориентировано на данные временных рядов и редко для журналов. Тем не менее, журналы необходимы для анализа корневых случаев. Это делает эти инструменты слепыми к основной причине любой проблемы и в конечном итоге потребует трудоемкого обучения и охоты через журналы. Миллионы и миллионы бревен!

Напротив, машинное обучение Zebrium обнаруживает коррелированные аномалии и паттерны как в журналах, так и в метрик, и использует их для автоматического улавливания и характеристики критических инцидентов и показать вам основную причину (см. — Обнаружение аномалии Вы на самом деле хотели Анкет Это означает быстрее MTTR и больше не охотиться за основной причиной! Мы называем это Признание инцидентов И это часть нашей автономной платформы мониторинга.

Теперь позвольте мне показать вам, как вы можете связать свой существующий рабочий процесс управления инцидентами вместе с автоматической идентификацией основной причины, независимо от сигнала запуска — для быстрого разрешения инцидентов.

Обнаружение увеличения с помощью идентификации автоматической основной причины зебрика

Зебриум использует неконтролируемое машинное обучение для автоматически обнаруживает и коррелирует аномалии и паттерны как в журналах, так и в метриках Анкет Эти сигналы составляют основу для автоматического обнаружения инцидентов и идентификации основной причины. \ В дополнение к автономному мониторинге, мы также можем потреблять внешние сигналы, чтобы сообщить о нашем обнаружении инцидентов. Представьте себе, что любой из ваших инструментов мониторинга в вашей экосистеме Pagerduty создал инцидент, и вы получаете «звонок» (в один из этих неподходящих моментов). Что происходит? Ну, вы, вероятно, уже знаете боль, которая будет впереди. Но Что, если вместо этого вы посмотрели на инцидент Pagerduty или на ваш слабый канал, и полный отчет об аномальных бревнах и показателях, окружающих инцидент, включая основную причину, уже был там, у вас под рукой.

Прохождение: Инцидент с Pagerduty, вызванный APM, дополняется основной причиной

Вот как это работает:

  1. Ваш инструмент Appdynamics APM обнаруживает критическое нарушение правила здоровья: время входа в систему превышает 60 секунд (Вы можете видеть это в инциденте Pagerduty ниже) и приводит все в движение.

  2. Благодаря существующей интеграции с Pagerduty создается инцидент, и политика эскалации стреляет (военная комната теперь открыта), и вы видите это в Pagerduty:

    Appdynamics вызвал инцидент в Pagerduty \

  3. Если у вас также есть интеграция Pagerduty/Slack, вы увидите что -то вроде этого:

    Pagerduty уведомляет Slack с вашим инцидентом Appdynamics

  4. В тот же мгновение Pagerduty автоматически отправляет сигнал в Зебриум со всеми деталями инцидента.

  5. На данный момент Зебриум делает три вещи :

    Первое Zebrium Do Doe является корреляцией деталей инцидента Pagerduty с его автономным обнаружением инцидентов и основной причиной, просматривая бревна и метрики за последние полчаса для любых инцидентов, которые он уже обнаружил.

  6. И в этом случае Зебриум обнаружил, что кажется соответствующим инцидентом. Инцидент в Pagerduty обновляется с подробностями инцидента с рыб и, вероятно, коренной причиной через API Pagerduty.   Вот как выглядит это обновление Pagerduty в Slack:

    Зебриум обнаружил случай инцидента и корень и обновил Pagerduty и Ослабление

  7. Если вам нужно дальше сверлить, это всего лишь один щелчок по каналу Slack или вашего инцидента Pagerduty. Давайте взглянем…

    Древое инцидентное упражнение вниз

    \ Глядя на наш инцидент с зеником, ваше внимание сразу же обращается на мероприятие Hallmark в Red. Это то, что мы считаем наиболее актуальным и важным аномальным событием в инциденте. Когда мы посмотрим ближе, мы видим, что Java «не может создать сеанс». Это, кажется, очень тесно связано с нашим предупреждением APM «Время входа в систему превышает 60 секунд».

    В верхней части инцидента мы также видим коррелированную метрическую аномалию в пуле JVM. На самом деле мы видим, что это падает пару раз. Мы могли бы подумать, что это проблема. Но это не основная причина.

    Как правило, мы увидели основную причину, возникающую в начале временной шкалы инцидента с зетьем. Поэтому, просматривая список событий, мы видим ядро, вызывая Oom-Killer на процесс, называемый OOM_TEST. И это на самом деле основная причина. Мы начали OOM_Test продолжать потреблять память, пока не убит.

    Платформа автономного мониторинга Zerbium выявила этот инцидент и полностью не приведена на должность. Не было предопределенных правил оповещения, и не было никакого вмешательства человека (кроме начала программы OOM_TEST).

  8. Вторая действительно крутая вещь Зебриум делает, создает синтетический инцидент. Несмотря на то, что, скорее всего, Зебриум уже автоматически обнаружил инцидент и основную причину, мы дополнительно возьмем сигнал из инцидента APM и создадим новый инцидент с зеником с любыми дальнейшими аномальными событиями или метриками во время сигнала, чтобы убедиться, что эта информация была Также легко впадает в руку. Это часто оказывается очень полезным для человека, делающего устранение неполадок. И действительно, вы можете видеть, что это произошло, и мы добавили записку к инциденту Pagerduty и Slack Channel.

    Синтетический инцидент с зебраем создан и обновлен в Pagerduty

  9. Наконец, третья вещь Мы сделаем, чтобы следить за вещами в течение следующих тридцати минут и продолжать обновлять инцидент Pagerduty с любыми новыми инцидентами, которые мы

Итак, давайте повторим временную шкалу из инцидента Pagerduty, показанного ниже.

09:55 — Appdynamics обнаружила нарушение правила здоровья

09:55 — Через несколько секунд Pagerduty создает инцидент и сигнализирует Zebrium Right

09:55 — Менее чем через минуту Зебриум обновил инцидент с Пагердути по ссылке на инцидент с зеником и, в конечном счете, основную причину, которая уже была идентифицирована за последние полчаса.

10:07 — Зебриум создает синтетический инцидент с дополнительными деталями и обновляет инцидент Pagerduty.

10:25 — Зебриум продолжает следить за дополнительными инцентами в течение 30 минут после получения сигнала.

Резюме общего рабочего процесса

Позвольте зебриуму позаботиться о MTTR

Используя Pagerduty, зебриум теперь может увеличивать существующие инциденты, которые были обнаружены любым инструментом 3-й стороны. При этом ваш инцидент будет автоматически обновлен с подробностями коренной причины без всей охоты, борьбы и адреналина, которые обычно связаны с военной комнатой!

Вы можете начать бесплатно, посетив либо https://www.zebrium.com или https://www.pagerduty.com/integrations/zebrium Анкет

Теперь это MTTR!

Опубликовано с разрешения автора: Род Багг

Оригинал: «https://dev.to/gdcohen/augment-a-pagerduty-incident-with-root-cause-4n1c»