Рубрики
Uncategorized

Инструмент связи вниз? Вот 3 способа справиться с этим

4 января 2021 года, Служба коммуникации Slass пострадала от главного отключения. Команды работают удаленно для … Теги с Sre, Devops.

4 января 2021 года, служба связи Слабый пострадал от крупного отключения. Команды работают удаленно нашли их основной метод связи недоступен. Инцидент длился более 4 часов Во время которых у некоторых клиентов были прерывистые или отсроченные услуги, а у других не было никакого обслуживания вообще. Это было напоминание, что даже самые установленные инструменты восприимчивы к простоянию. Это основной урок SRE: этот провал неизбежен.

SRE также учит нам важность планирования провала и реагировать на него как можно более упруго. Отказы не ограничены нашими собственными системами. С повышением микросервисов наши системы полагаются на сложную экосистему, которая включает в себя много сторонних продавцов и инструментов. Некоторые из наиболее важных инструментов команд используют ежедневно, являются теми для совместной работы. Так как мы можем планировать неудачу в системах за пределами нашего контроля?

В этом посте в блоге мы будем покрывать:

  • Что происходит, когда инструмент связи не удается
  • Как подготовиться к коммуникационным отключателям
  • Как учитывать отключения в вашем решении надежности
  • Насколько безупречно может помочь покрыть пробелы в наличии

Что происходит, когда мой коммуникационный инструмент не удается?

Когда ваш коммуникационный инструмент идет вниз, он может чувствовать, что небо падает. Независимо от того, на слабые, команды, раздоре, скайпу или зуме, промежуток в связи с коммуникационными инструментами пределы производительности. Есть также несколько пропущенных результатов отключения этой природы. Вот что может произойти, когда третий инструмент связи идет вниз:

  • Люди не могут посещать встречи или мисс напоминания для них
  • Люди прибегают к альтернативным методам связи, которые могут оставить других из цикла
  • История связи теряется, как и знания, кодифицированные исключительно внутри чатов и нитей
  • Каменные точки становятся контрольными блоками, если помощь недоступна, особенно для больших команд, которые могут не иметь вторичных методов связи согласованный
  • Связанные общественными каналами могут исчезнуть, что приведет к разочарованию клиентов сторонние инструменты за пределами вашего контроля. Важно подготовиться к возможной неспособности минимизировать эти вопросы.

Как я могу подготовиться к коммуникационным отключателям?

Пока вы никогда не сможете полностью подготовиться к отключению, есть некоторые стратегии, которые облегчают реагирование на упущенную связь в связи. Вы можете работать с вашей командой до Минимизировать Spofs (Одиночные точки отказа). Вы можете сформировать резервные планы и публиковать их. И вы можете создавать инженерные эксперименты Chaos для имитации отключения инструмента связи. Давайте посмотрим на каждый из этих методов

Минимизирующие выпуски и кодифицирующие знания

Одна точка отказа (SPOF) — это один человек, ресурс или инструмент, который, если он недоступен, приведет к неспособности в системе. В случае третьей сторонней коммуникационной инструментарии SPOFS может включать доступ к МСП (эксперт по теме).

МСП могут быть необычайными ресурсами знаний. Однако, если эти люди являются единственными, кто знают определенные подробности о системе, или являются единственными людьми в команде, способной разрешать инциденты, они очки неудачи. Чтобы минимизировать это, вы можете попробовать Колесо Staycation , методика, используемая командами в Google. Каждый товарищ по команде проводит период времени на проектную работу, полностью бесперебойную. Остальная часть команды должна функционировать без помощи этого человека.

Если члены команды достигают точки, где они не могут решить проблему или выполнить задачу без помощи МСП, они отмечают это. Команда должна решить эти разрывы знаний позже. МСП, который проводит знания, может создавать документацию, руганки или проводить обучение, чтобы убедиться, что вся команда на одной странице. В случае коммуникационного отключения инструмента, это помогает командам функционировать, когда доступ к МСП может быть сложно.

Строительство плана резервного копирования для коммуникационного приспособления

Руководительные книги являются ключом к созданию устойчивых планов резервного копирования в случае отключения коммуникационного приспособления. Руковены — это документы, которые управляют вами шагами и проверками. В SRE, Runbooks построены и автоматизированы реагировать на внутренние инциденты. Они также могут быть применены к сторонним отключателям. Ваши шаги могут выглядеть что-то подобное:

  1. Войдите в инструмент поддержки резервного копирования
  2. Опубликовать сообщение, подтверждающее, что вы доступен
  3. Подтвердите свою текущую задачу с вашей командой
  4. Подтвердите наличие любых инструментов или ресурсов, которые вы ожидаете, что нужно для вашей текущей задачи
  5. Проверьте другие методы связи, чтобы убедиться, что вы не связались там
  6. Убедитесь, что внешние коммуникации все еще могут поточить как обычно, как только у вас есть план на месте, пришло время проверить, насколько эффективен ваш план.

Использование HAOS Engineering для моделирования отключения

Chaos Engineering — это техника, которая позволяет командам имитировать неудачу и искать способы реагировать на него и предотвратить его в будущем. Это помогает командам ответить на тех «что если» вопросы о своих системах. Chaos Engineering также может помочь командам подтвердить свои планы связи с резервными копиями в случае отключения инструмента.

Например, команда, желающая проверить, насколько хорошо они могут ответить на расслоение отключения, могут создать эксперимент, в котором они не могут использовать Slash для полного рабочего дня. На данный момент команда вернется к бендуке, охватывающую такую ситуацию. Затем команда будет выполнять Runbook. Если есть какие-либо коммуникационные поломки, команды могли отметить это и предложить способы настроить Runbook в будущем.

Как я могу учитывать третьительные отходы в моем плане надежности?

Некоторые услуги могут не потребоваться глубоко анализировать, как отключение связи повлияет на их общий план надежности. Однако для служб, которые зависят от коммуникационного оснащения (т. Е. Виртуальные мероприятия.

Убедитесь, что вы не планируете быть более надежным, чем третий инструмент, от которого вы зависите. Посмотрите на соглашение об уровне обслуживания (SLA), у вас есть с вашего поставщика инструментов. Ваша SLA для услуг, которые требуют, чтобы этот инструмент не может быть выше этого. Если у вас SLA Provider гласит, что он может обеспечить доступность 99,95%, вы не можете обещать, что ваш сервис будет доступен 99,99% времени.

Как могла помочь, когда инструменты связи снижаются

Blubeless может помочь командам работать через коммуникационную промежуток и обеспечить способ партнерских помалов подключаться во время инцидента. Вот несколько способов безупречных могут помочь, когда происходит отключение:

  • Безупречное разрешение инцидента Автоматически создает как видеоконференцсвязь, так и канал обмена сообщениями для каждого инцидента. Это дает команды центральным коммуникационным центром во время отключения и создают резервирование.
  • Бесплатная документация по бендуке Позволяет командам создавать и записывать повторяемые процессы, удерживая всех на одной странице.
  • Безопасные инцидент Ретроспективы Отображает временную шкалу событий, Runbooks, прикрепленные к инциденту, а комментарии по команде. Вся ваша информация находится в одном месте, а кодифицировано, поэтому каждый может получить доступ к нему.

Чтобы увидеть другие способы безупречные могут помочь улучшить свою надежность, проверить Демо Отказ

Если вам понравилось этот блог, посмотрите эти ресурсы:

Оригинал: «https://dev.to/blameless/communication-tool-down-here-are-3-ways-to-handle-it-4594»