Если вы читаете это, вы, вероятно, очень заботитесь о среде, чтобы обнаружить (MTTD) и среднее время для решения (MTTR). Вы также, без сомнения, знакомы с мониторингом, ответом на инцидент, военными комнатами и тому подобным. Кто из нас не был вырван из постели и не оторван от семьи или друзей в самое неподходящее время? Я знаю воочию от запуска поддержки мирового класса и организаций SRE, что все сводится к двум простым вещам: 1) У всех программных систем есть ошибки и 2) Это все о том, как вы отвечаете. В то время как некоторые клиенты могут сочувствовать № 1, без исключения, все они все еще ожидают раннего обнаружения, подтверждения проблемы и почти присоединенного разрешения. О, и лучше никогда больше не повторяться!
Быстрый Mttd. Проверять!
Pagerduty явно является лидером в реагировании на инцидент и управлении эскалацией по вызову. Для Pagerduty существует более 300 интеграций для анализа цифровых сигналов практически любой системы с поддержкой программного обеспечения для обнаружения и определения проблем в вашей экосистеме. Когда инцидент создается с помощью одной из этих интеграций мониторинга, скажем, инструмент APM, Pagerduty мобилизует правильную команду за считанные секунды (прочитайте: это когда вы получите «страницу» во время 5 -летия вашей дочери). Быстрый Mttd. Проверять!
Но как насчет MTTR? Под r я имею в виду решимость
Все отличные инструменты реагирования на инциденты будут иметь механизмы автоматизации книг, которые могут помочь восстановить Работа системы быстро в некоторых типичных случаях. Но это не доходит до первопричины, поэтому вы можете понять и разрешение Проблема и не позволил этому повториться. Для этого введите слишком широкую «военную комнату». Этот термин и концепция были впервые придуманы в 1901 году, но, вероятно, был наиболее известен Уинстоном Черчиллем во время Второй мировой войны, где военная комната Кабинета была эпицентром сбора разведки, анализа данных и связи на протяжении всей войны. Тогда это были телеграф, телефоны, радиосигналы и карты на стене. Сегодня это, вероятно, виртуальная комната с использованием Zoom, Slack, визуализаций в реальном времени, мобильных телефонов и наиболее важных журналов. Миллионы и миллионы бревен! Но преобладающее отношение военной комнаты осталось неизменным — «Если вы проходите через ад, продолжайте».
Первоначальный сигнал, вызванный инцидентом, был, вероятно, был из -за предупреждения, который, возможно, обнаружил, что предопределенный порог был «вне терпимости», каким бы простым или сложным или сложным. Или, возможно, из-за оповещения, которое вы определили в пинг-инструменте или, может быть, какой-то домашний живой хвост, наблюдающий за шипами в количестве ошибок или в некоторых схожих шаблонах. Какими бы ни были средства, он был основан на некоторых предопределенных правилах, чтобы обнаружить симптомы проблемы. В большинстве случаев следующим шагом является определение основной причины. Например, симптом, который вызвал сигнал, мог бы заключаться в том, что задержка была слишком высокой, но это ничего не рассказывает о основной причине.
Независимо от того, формализуете ли вы назначенную военную комнату для конкретного инцидента или нет, две вещи уверены: 1) своевременное, тщательное и точное общение между членами команды имеет первостепенное значение и 2) Скорее всего, вы будете искать через журналы и сверлить различные показатели, чтобы добраться до первопричины. И это Брутная сила поиска через журналы И метрик, вероятно, ваш ад.
Прекратите проходить через ад
Многие инструменты мониторинга начали использовать различные методы машинного обучения и обнаружения аномалий, чтобы повысить этот первый сигнал для запуска ответа инцидента, часто с помощью таких инструментов, как Pagerduty. Тем не менее, эти методы по -прежнему требуют слишком большого количества человеческого ввода для рук, каких метрик для мониторинга и для выбора конкретных алгоритмов или параметров настройки. Обнаружение аномалий в инструментах мониторинга преимущественно ориентировано на данные временных рядов и редко для журналов. Тем не менее, журналы необходимы для анализа корневых случаев. Это делает эти инструменты слепыми к основной причине любой проблемы и в конечном итоге потребует трудоемкого обучения и охоты через журналы. Миллионы и миллионы бревен!
Напротив, машинное обучение Zebrium обнаруживает коррелированные аномалии и паттерны как в журналах, так и в метрик, и использует их для автоматического улавливания и характеристики критических инцидентов и показать вам основную причину (см. — Обнаружение аномалии Вы на самом деле хотели Анкет Это означает быстрее MTTR и больше не охотиться за основной причиной! Мы называем это Признание инцидентов И это часть нашей автономной платформы мониторинга.
Теперь позвольте мне показать вам, как вы можете связать свой существующий рабочий процесс управления инцидентами вместе с автоматической идентификацией основной причины, независимо от сигнала запуска — для быстрого разрешения инцидентов.
Обнаружение увеличения с помощью идентификации автоматической основной причины зебрика
Зебриум использует неконтролируемое машинное обучение для автоматически обнаруживает и коррелирует аномалии и шаблоны как в журналах, так и в метриках Анкет Эти сигналы составляют основу для автоматического обнаружения инцидентов и идентификации основной причины.
В дополнение к автономному мониторинге, мы также можем потреблять внешние сигналы, чтобы сообщить о нашем обнаружении инцидентов. Представьте себе, что любой из ваших инструментов мониторинга в вашей экосистеме Pagerduty создал инцидент, и вы получаете «звонок» (в один из этих неподходящих моментов). Что случается? Ну, вы, вероятно, уже знаете боль, которая будет впереди. Но Что, если вместо этого вы посмотрели на инцидент Pagerduty, и полный отчет об аномальных бревнах и показателях, связанных с инцидентом, включая основную причину, уже был там, под вашими пальцами.
Часть 1 — если вы используете Pagerduty
Вот как это работает:
- Ваш инструмент мониторинга повышает тревогу
- Благодаря существующей интеграции с Pagerduty создается инцидент, и политика эскалации стреляет (военная комната теперь открыта)
- В тот же момент Pagerduty автоматически вызывает исходящий веб -крюк в зебрик со всеми деталями инцидента, которые у него есть.
- Зебриум коррелирует эти детали инцидента с его автономным обнаружением инцидентов и коренной причиной, глядя через журналы и метрики
- Инцидент в Pagerduty обновляется с подробностями инцидента с зебра и, вероятно, коренной причиной через API Pagerduty
- Если вам нужно дальше, это только один щелчок от вашего инцидента в Pagerduty.
Часть 2 — Если вы используете Slack в качестве управления инцидентами Рабочее пространство
Платформа автономного мониторинга зебриама может потреблять любой внешний сигнал для информирования и корреляции обнаружения инцидентов и основной причины. Допустим, например, вы работаете с коллегами и общаетесь в канале Slack, который включает интеграцию Zebrium в рабочей области. Просто введите команду (или заставьте своего бота, чтобы сделать это), чтобы попросить о помощи за помощи, и мы собираем все соответствующие аномалии, журналы, метрики и предоставим приблизительные возможности для быстрого управления, чтобы заставить вас быстро разрешить! Все от Slack.
Вот как это работает:
- Вы устанавливаете канал Slack для вашей виртуальной военной комнаты. Вы собираете команду вместе и смотрите на данные из инструмента APM и видите некоторую тревожную статистику
- Вы вводите «/ Анализ инцидентов с зебрами » Вызовать зевиум для анализа и основной причины
- Вот это … больше нет боли!
1 — Военная комната
2 — командование зебриам Слэша в действии
3 — Пользовательский интерфейс инцидента с зетьем, показывающий коренную причину и коррелированные аномалии метрик
Позвольте зебриуму позаботиться о MTTR
Используя вышеуказанные интеграции, теперь вы можете увеличить существующие инциденты, которые были обнаружены любым инструментом с зебраем. При этом ваш инцидент будет автоматически дополнен деталями коренной причины без всей охоты, борьбы и адреналина, которые обычно связаны с военной комнатой.
Вы можете начать бесплатно, посетив https://www.zebrium.com Анкет Вскоре появится более подробная информация о увеличении инцидентов PageRduty и Slack.
Теперь это MTTR!
Опубликовано с разрешения оригинального автора Rod Bagg @ Зебриум
Оригинал: «https://dev.to/gdcohen/you-ve-nailed-incident-detection-what-about-incident-resolution-1737»