Рубрики
Uncategorized

Лучший ответ на инцидент: инцидентская классификация и настройка тяжестей с тегами

То, что вы абсолютно не должны знать, когда отвечаете на инцидент, это то, какое влияние он имеет по кассу … Теги с Sre, Devops.

То, что вы абсолютно не должны знать, когда отвечая на инцидент, является то, какое влияние он имеет на клиентах и насколько негативно это может повлиять на вашу команду. Это, как правило, рассматривается следуя какой-то классификацией инцидента, обычно «уровни тяжести падающего тяжести», чтобы указать важность каждого инцидента — то есть для понимания того, насколько серьезно влияют различные заинтересованные стороны и направляют инцидент по-разному при необходимости. Следует отметить, что классификация инцидента не используется для определения корневой причины или найти разрешение.

Реализация классификации инцидента в вашем Программное обеспечение для управления инцидентами И процесс может значительно снизить МТТР и стресс, участвующий в первые несколько минут инцидента.

Как реализовать классификацию инцидентов?

Помимо создания расписаний на вызове и принятие лучших практик о том, как обрабатывать различные виды инцидентов, управление инцидентами также связано с постоянно переработкой процессов и ориентиров, чтобы в конечном итоге достичь более высокой надежности системы. Одним из способов переработки процессов является использование классификации инцидентов, подобно таким силам падающих сил.

У каждой команды есть свой уникальный способ определить тяжести. Но это развивается, как только они имеют базовую структуру классификации для определения тяжести инцидента. Наиболее распространенной отправной точкой является шкала SEV 1 — SEV 5, изложенная ниже:

  • Инциденты SEV-1 — это те, которые являются критическими и имеют очень большое влияние на опыт клиента. Обычно основные инциденты, которые вызывают отходы, препятствующие удобству продукта или услуг для большого процента клиентов.
  • Инциденты SEV-2 также имеют решающее значение в природе, но менее серьезными по сравнению с инцидентами SEV-1. Инциденты, которые влияют на меньший процент клиентов и препятствуют потреблению продукта, тем не менее, подойдут под SEV-2.
  • Инциденты SEV-3 — это те, которые могут быть незначительными, но могут оказать значительное влияние, если не решаются немедленно. Это могут быть инциденты, которые включают ухудшение устойчивости продукта, но не могут воздействовать на использование продукта прямо сейчас.
  • Инциденты SEV-4 являются незначительными инцидентами, которые указывают на то, что продукт не выполняется до необходимого стандарта, но не обязательно не обязательно влияет на удобство удобства.
  • Инциденты SEV-5 являются незначительными ошибками, которые необходимо исправить, но не влиять на удобство использования продукта.

Тем не менее, существуют другие факторы, такие как требуемая срочность в решении инцидента, или как инцидент может повлиять на другие части системы, которая не может быть учтена при присваивании тяжести инцидента. Некоторые индикаторы управления инцидентами пытаются решить это, добавив другие формы классификации, такой как падающая срочность, а также критичность падения. Многие решения позволяют только для тяжести падающего происшествия в качестве одной формы классификации и в некоторых случаях это делается вручную, а не автоматически присваивая уровни серьезности на основе контекста входящего оповещения.

Есть явная возможность улучшить Инцидент ответ Процессы с лучшей классификацией инцидента. Если реализуется правильный путь, это может значительно снизить МТТР, а также предоставить возможность уменьшить труд, связанную с маршрутизацией вручную, а также добавляет больше контекста для инцидента во время первичного анализа.

В SQUADCACT мы решили добавить больше гибкости к этому процессу, создав пользовательскую систему автоматической метки на основе правил, а не имея только раскрывающуюся вручную, чтобы выбирать или назначить теги. Мы в основном определяем теги как пары клавиш для, например,. Ключом может быть серьезность, а возможные значения могут быть SEV0, SEV1, SEV2 и т. Д. Или ключ может быть командой, а возможные значения могут быть уверены, Frestend, базы данных и т. Д. С Помежки и Маршрутизация Особенности в SQUADTACT, вы можете установить в значительной степени любые пользовательские метки, которые будут автоматически назначаться на основе правил, которые вы определяете в верхней части атрибутов, передаваемых в полезную нагрузку. Затем вы можете использовать эти теги, чтобы установить правила маршрутизации, гарантируя, что правильный ответчик уведомлен в нужное время, чтобы снизить время разрешения.

Представляя часть 2 серии Kevin, мы иллюстрируем, как использовать теги, чтобы установить напряженность в SQUADCACT. У нас есть больше статей на основе использования на основе случаев, выровняются вверх, чтобы показать вам другие способы реализации классификации инцидента с помощью тегов — оставайся настроенными!

Слияние Если вам было интересно, Кевин ранее также настроил свой собственный Уверенные правила дедупликации Уменьшить шум оповещения в Squadcast.

Серьезность и автоматические маршруты с инцидентами

Это 13 февраля в теплом днем, а Кевин лениво мечтает о том, как его дата собирается вытащить на следующий день. Его мечта внезапно разрушена торрентам инцидентов базы данных, которые заливают. Что более раздражает, в том, что большинство из них не особенно критичны или даже связаны с классом вопросов, которые он обычно обрабатывает.

Кевин получил новый рингтон для инцидентов. Люби меня делать, в соответствии с Валентином Духом.

Кроме того, он работает с Kai, который, как ожидается, будет справиться со всеми инцидентами низкоэффективности и, как правило, все, что происходит в отношении оптимизации запроса.

Кевин понял, что он может проводить время более эффективно

  • Классифицирование его инцидентов, присваивая тип или класс инцидентов, в которые они вписываются
  • Назначение серьезности добраться до критических инцидентов быстрее
  • Автоматически направлять инциденты на основе тегов для обеспечения что правый ответчик предупрежден

Это позволило бы мечтать больше времени на мечту Кевина!

Учитывая, что они работают в относительно маленькой компании, в которой вращения на вызове довольно ошибочные или обрабатываются как, когда произойдет пожары, он решил сделать этот процесс в целом лучше, просто все более эффективно маршрутизирую.

Плюс, предвидя тот же запас инцидентов, пока он на дату завтра, он решит взять дело в свои руки. Он видит, что инцидент базы данных — это инцидент на основе оптимизации запросов. И даже не суровый при этом, основанный на значении посещенного_Returned_ratio в полезной нагрузке.

{  
      "payload": {    
        "id" : 23,    
        "issue" : "SLOW_QUERY_PERF",    
        "metric" : {      
          "visited_returned_ratio" : 1300.2334,      
          "time_interval" : 10    
        },    
        "summary" : "Slow query performance",    
        "cluster_name" : "cluster-prod-0-awsumdb",    
        "cluster_id" : 9,    
        "hostnames" : [      
          "rpl0-awsumdb.cluster-prod-0-awsumdb.db.com",      
          "rpl2-awsumdb.cluster-prod-0-awsumdb.db.com"    
        ],    
        "link" : "",    
        "created" : "2020-02-13T13:00:00.116Z",    
        "status" : "open"  
      }
}

Затем он пишет правило для автоматического добавления тегов на инцидент, чтобы добавить больше контекста и классифицировать его лучше

Правило: RE (PayLoad.issue, «Запрос») && payload.metric.visized_returned_ratio <5000

Теги назначены:

  • ISSUETYPE: оптимизация
  • строгость: низкий

Наконец, теперь он готов, чтобы, по крайней мере, инциденты классифицируются. С удовлетворенным самодовольным он сидит и восхищается его произведением искусства. Быстрая мысль прыгает через его голову, и он потирает руки в коварное зло.

Теперь он использует правила маршрутизации и тег ISSUETYPE для автоматического пути на пути к правильному человеку, который идет вперед. В этом случае к Кай. Так что Кевин больше не беспокоит эти виды проблем.

Кевин, задумчиво прибудет к выводу, что это вполне возможно, лучший подарок, который он мог дать своему другу в день Святого Валентина.

Высказывание Является ли инструмент для управления инцидентами, который предназначен для Sre. Создайте безупречную культуру, уменьшая необходимость в физических военных комнатах, централизовать DishBoards, объедините внутреннюю и внешнюю SLIS и автоматизировать разрешение на инциденту Эскадвесные действия и создать базу знаний для эффективной обработки инцидентов.

Оригинал: «https://dev.to/squadcast/better-incident-response-incident-classification-setting-severities-with-tags-4hel»