Рубрики
Uncategorized

5 крупнейших промежуток времени в квартале 2 2020

Что-нибудь плохое, что может произойти — произойдет. Эта старая пословица распространяется на 100% в технологию промышленности, W … Tagged с Sre, DevOps.

Что-нибудь плохое, что может произойти — произойдет. Эта старая пословица применяет 100% к технологической отрасли, где сбои и отключения гораздо чаще встречаются, чем команда продаж и маркетинга, которые мы хотели бы подумать. Тем не менее, разработчики инженеров, которые занимаются инфраструктурой, знают, как тяжело убедиться, что все работает как предназначено все время — и настроить мониторинг, который на самом деле отслеживает здоровье системы и помогает предотвратить вырывы и простоя.

В Statinalgator мы отслеживаем страницы состояния более чем 800 облачных услуг и доставьте мгновенные уведомления для наших пользователей. У нас есть горы данных о времени простоя и отключения и увидите полную картину, поэтому мы решили сделать ежеквартальный список простоя. Мы надеемся, что наши выводы мотивируют инженеров DEVOPS, чтобы увидеть, как другие имеют дело с сервисными отключателями, чтобы они могли улучшить собственную надежность.

Читайте дальше, чтобы узнать о пяти крупнейших отходах Q2 2020 и насколько слабые, зума, GitHub, IBM Cloud и T-Mobile действовали во время этих кризисов. Мы также оцениваем результаты этих отключений и были бы рады услышать ваши мысли на наших рейтингах.

Отключение № 1 — Всемирное расслоение, 12 мая 2020

Scred — это основное средство общения для тысяч компаний по всему миру, поэтому его стабильное время безотчетное время является важным значением. Таким образом, когда пользователи перестали возможность отправлять и получать слабые сообщения около 19:30 EDT, ситуация быстро обострилась в полномасштабной проблеме. В отличие от во время предыдущих отключений, это повлияло на всю слабую экосистему: никто не может войти, чтобы расслабиться или получать любые уведомления. » Расслабляется? «Пользователи спросили себя, и ответ был неоспоримым« да! »

Кто-нибудь, использующий приложение Slack Electron. Получал общую ошибку HTTP. Даже на следующий день, после того, как проблема была решена, люди, использующие приложение SLACH, все еще видели одно и то же сообщение об ошибке. Приложение не обновляется автоматически, так что оно запутало для нетехники, многие из которых не знали, что им пришлось нажать Ctrl-R, чтобы обновить приложение и восстановить услугу после ошибки.

Компания подтвердила, что они знали о ситуации и размещены регулярные обновления для Страница Slack Status Отказ Вполне важно, эти обновления не были стандартизированы «Мы знаем о ситуации, пожалуйста, поддерживаем» ответы.

Представители команды писали подробные сообщения, которые показали клиентам, которую клиенты, провиндаемая команда была прозрачной о проблеме, которую они столкнулись, и усилия, которые они сделали, чтобы преодолеть его.

В 10:26 вечера Edt Slack сообщил о полном восстановлении услуг и снова извинился за неудобства. Еще более важно, они опубликовали подробное Postmortem На среднем, объясняющем причины вопроса, действия, которые они совершали, чтобы преодолеть его, выводы, которые они пришли, и меры, которые они предприняли для устранения шансов на аналогичную ситуацию, происходящую снова.

Не стесняйтесь читать этот постмертем, это очень технику, но вполне понятно даже для пластов. Гласс демонстрирует здесь, что они заботятся о членах своей пользовательской базы — как разработчикам, так и массовой базе пользователей, а доверия к этой статье проекты восхитительна.

Важно отметить, что вот то, что в то время как проблема сама началась в 8:30 AM EDT, проблема полностью пошла под радаром до 18:30 EDT, когда несколько пользователей сообщили о проблемах с провисанием. Они сообщили о них внутри приложения (который был в основном к этому времени), в Twitter, на Downdetector, на веб-сайте Slack (который снизился слишком скоро) и через многие другие каналы, до того, как команда Slack стала осознавать ситуацию.

Получение уведомления о отключении было бы намного быстрее и проще с состояниями, где вы можете составлять несколько страниц состояния в одну панель инструментов. StatinalGator может отправлять централизованные уведомления о променах для любых сервисов и API, и вы можете наслаждаться этим с Бесплатный план подписки !

Отключение № 2 — Выключение масштабирования, 17 мая 2020

Использование увеличения резко возросло, так как пандемия Коронавируса началась как больше людей работают и изучают удаленно. Таким образом, есть подписки на страницу состояния масштабирования, которые взлетели в состоянии состояния с апреля.

Помимо предприятий, которые вынуждены начать работу удаленно, многие церкви и другие общественные организации начали использовать зум, чтобы провести воскресные массы, встречи и проведения общественных мероприятий. Таким образом, в то время как воскресенье — это не рабочий день, многие платные счета в Великобритании быстро заметили, что они не смогли разместить или присоединиться к увеличению встреч (бесплатные счета, казалось, не повлияли). Проблема была представлена через несколько каналов, включая Twitter и StatinalGator, который следит за состоянием зума.

Представитель зума ответил, подтверждая осведомленность об ситуации и упоминание о том, что она затрагивала только подмножество пользователей. Тем не менее, мы все знаем, что подмножество может быть на 1% или 99%, а увеличение не предусмотрено никаких признаков, поскольку объем пострадавших пользователей. Обеспечение большей прозрачности в процент пострадавших пользователей является отличительной чертой страницы состояния качества, что нужно улучшить зум.

Проблема была сообщена решена к 11:40 AM EDT, но зума не призвала объяснения или постмертем любого рода. Такое отношение, наряду с Зовумбинг и флажок «Каталог компании» в настройках, позволяющих пользователям Утечка корпоративных фотографий и электронные письма Одной из причин, по которой многие пользователи теперь активно ищут лучшие альтернативы увеличению.

Отключение № 3 — GitHub был недоступным … Опять таки. 29 июня 2020 года

GitHub, кажется, намного больше, так как его $ 7,5 млрд. Приобретение Microsoft Отказ Причины не были раскрыты, и мы можем только размышлять только по причинам. Может быть, это есть что связано с интеграцией инфраструктуры GitHub с системами Microsoft. Может быть, это потому, что GitHub двигался быстрее и добавив больше функций. В любом случае, прошел почти два года после приобретения, а пользователи замечают более устойчивые периоды простоя в Github. Наш независимый Анализ страницы состояния GitHub подтверждает, что отходы стали чаще за последние два года.

Microsoft усердно работает, чтобы превратить GitHub в еще лучшее место для разработчиков, чем раньше. Гигант Redmond сделал все платными планами более доступным в начале этого года и предложил некоторые ключевые функции для свободного размещения большего размещения в распоряжении IT-специалистов. Microsoft, Apple, AWS, Google, Facebook и тысячи других компаний используют GitHub для хранения и запуска своих репозиториев кода, поэтому его время безотучна имеет первостепенное значение.

Тем не менее, Github был в течение двух часов 29 июня 2020 года. Весь веб-сайт и его услуги были недоступны, поэтому многие разработчики даже не могли нажать код или развернуть их приложения из-за количества интеграций GitHub, которые были не реагированы. Естественно, это вызвало серьезную люфту и вызвало GitHub, чтобы представить Доставка ежемесячной доступности В дополнение к своей странице статуса, предоставляя подробные объяснения причин и результатов каждого отключения.

Отключение № 4 — IBM Облако упало вместе со страницей статуса, 10 июня 2020 года

Одним из самых больших ошибок, находящихся на основе облачного обслуживания, — это провести свою статусную страницу на собственной инфраструктуре. Похоже, облако IBM делал только что, поэтому, когда вся вся инфраструктура недоступна в течение нескольких часов в июне, страница его статуса последовала костюм. Мы могли бы ожидать IBM нарисовать некоторые выводы после Время простоя Далласа в марте , но, видимо, они не беспокоились или не приложили достаточно усилий.

Таким образом, 10 июня 2020 года, облачная инфраструктура IBM пошла по всему миру. Это отключение оказало функции, такие как Watson AI, IBM Cloud Foundry, сервис Kubernetes, хранение облачного объекта, удостоверение личности и управление, VPN для VPS, приложение Connect и другие полностью недоступны. К счастью, страница IBM Cloud Status была недоступна только на ранних этапах отключения и стала доступной с прерыванным позже. Вот почему StatinalGator все еще мог отправлять оповещения пользователям, которые подписались на страницу IBM Cloud Status.

Компания полностью не удалась сообщить причины отключения, а также шаги, которые необходимо облегчить воздействие. Позже он стал известен из самостоятельного мониторинга, что 3-й-сторонний сетевой поставщик широко использовал маршруты трафика, что привело к серьезным ограничениям на полосе пропускания конфигурации облака IBM. Специалисты IBM переконфигурировали свои системы и восстановленные операции, но никаких официальных объяснений или объявлений не наступила — много до разочарования пользователей.

Это не первый раз, когда IBM потерпел неудачу на общественных отношениях, ни мы думаем, что это будет последнее. Вероятно, это одна из причин, по которым они падают так далеко позади AWS, Google Cloud Platform, Microsoft Azure и других облачных поставщиков, несмотря на доставку разнообразных услуг конкурентных облаков.

Но что может сделать IBM? Имел независимую страницу статуса, естественно! Ниже приведены лишь некоторые из вариантов, которые они могли бы использовать:

  1. Statusepage.io Отказ Самая большая и самая популярная платформа вокруг. Это, вероятно, единственный провайдер достаточно большой, чтобы обрабатывать такие компании, как IBM Cloud.
  2. Статус .io Отказ Еще один большой и широко используемый поставщик страниц состояния с инфраструктурой, отвечаю на масштабе, что потребует в IBM Cloud.
  3. В качестве альтернативы они могут создать свой собственный статус страницы, будучи осторожным не зависят от любой собственной инфраструктуры Отказ IBM может вместить его как статическую страницу на стороннем CDN для снижения сложности и зависимости от своей сети.

Отключение № 5 — T-Mobile обращает свою сеть по канализации, 15 июня 2020 года

T-Mobile, одна из крупнейших операторов мобильной сети в США, ЕС и Великобритании, недавно оказалась на фоне идеального шторма, когда она не смогла предоставить сообщение обмена голосами и текстовыми сообщениями в течение 13 часов прямо через США. Согласно внешнему наблюдателю Генеральный директор Matthew Prince @ CloudFlare , «T-Mobile внесет некоторые изменения в свою сеть, которая стала плохо и привела к ряду каскадных сбоев для своих пользователей». Он также сказал, что «такая катастрофа была почти наверняка, полностью полностью изготовлена о создании команды T-Mobile».

Напротив, Невилл Рэй, президент T-Mobile, Tweeted То, что в то время как это было действительно «серьезная проблема, влияющая на голосовые и текстовые услуги для пользователей по всей стране», она возникла из неисправного 3-го системного провайдера, а инженеры T-Mobile работают усердно, чтобы исправить его. Позже он разработал по теме в подробном Блог пост с объяснениями относительно причин отключения.

Цитировать мистер Рэй, «Известно, что событие Trigger является арендуемой волокна сбоя от стороннего провайдера на юго-востоке. Это то, что происходит в каждой мобильной сети, поэтому мы работали с нашими поставщиками для создания резервирования и отказоустойчивости, чтобы убедиться, что эти типы сбоев цепей не влияют на клиентов. Это резервирование не удалось нас и привело к тому, что ситуация с перегрузкой, которая затем усугублялась другими факторами. Это привело к перегрузке IP-бассейнов и вылетает во все регионы в США.

В результате неспособности достичь большинства услуг, клиенты T-Mobile начали отчеты Недоступность Facebook, Instagram и других платформ , пока это была их сеть мобильной несущей, которая была на самом деле в автономном режиме. Бизнес-инсайдер сообщил, что пока T-Mobile Клиенты обвиняли AT & T и Verizon для неудач Обе носители работали под нормальными уровнями нагрузки. Тем не менее, вышеупомянутый пост Невилла Рэя заявил, что T-Mobile предпринимает все необходимые меры для обеспечения невозможности таких вхождений в будущем путем создания двойной устойчивости и изменений в резервию для всех его основных систем.

Как видите, неспособность Компании четко озвучивает свою позицию, нежелание принять ответственность за провал с самого начала и отсутствия прозрачности после отключения отключения не позволил T-Mobile уйти из ситуации без пятен. Это даже привело к слухи о массивных приступах DDOS они столкнулись и не смогли отталкивать.

Прогноз на прогноз отсеков

Мы назвали только пять крупнейших сетевых отпусков Q2 2020, но было много, многие, больше. Microsoft Azure Central India Region был оффлайн На протяжении многих часов 18 и 19 мая из-за неисправностей питания и последующего отключения блока воздушного охлаждения. CloudFlare пострадал от главного отключения, влияющего на миллионы сайтов После того, как техник отсоединен важной панелью во время исправления 16 апреля 2020 года.

Пока лето в середине и Q3 молодо, мы не знаем, что будет идти «бум» в следующий раз или когда и где это произошло. Тем не менее, мы уже знаем CloudFlare испытал большой отключение 17 июля 2020 года, и мы расскажем о его более подробностях в нашем следующем дайджесте. Мы также можем предсказать, что IBM не собирается сделать надежную страницу статуса 🤦♂️ — и что T-Mobile даже не будет делать один! 🤷. ‍ ♂️. Докажите нам не так!

Награды instinalgator для участников Q2

Давайте рассмотрим эти променаты, основанные на их открытии, коммуникации от участвующих компаний и результатов каждого события:

🦸 ♂️ супергероя Расслабиться 👍 В деталях 🟢 онлайн 👍 Постоянный
☹️ страдание репутации Zoom. 👎 Минимальный 🟢 онлайн 👎 Минимальный
👍 Хорошее восстановление Гадость 👌 ежемесячно 🟢 онлайн 👌 Отлично
🤦 FacePalm. IBM Облако 👎 Никто 🔴 офлайн 👎 Никто
👉 Указатель пальцев T-Mobile 💩 Противоречивый ❌ Никто 👌 неохотно

Дерьмо происходит, но страница статуса может помочь отрицать его влияние

Мы уверены, что срывы большие и маленькие будут продолжать происходить из-за ошибки человеческой, неисправной конструкции, непроверенной резервированием или даже погодой. Мы также уверены, что использование централизованного сервиса отчетности страницы статуса, как статус, может помочь вам обнаружить и определить проблемы быстрее, смягчить их последствия раньше и лучше, и удержать своих клиентов, чтобы минимизировать их бедствие и разочарование.

Что делать дальше?

  1. Настройте страницу состояния Если у вас еще нет одного.
  2. Подписаться на statinationgator И настройте уведомления о простоях службы — это бесплатно!
  3. Еще несколько статей на страницах статуса:

Слияние Особая благодарность Дежол чат за помощь нам улучшить эту статью.

Оригинал: «https://dev.to/maxshash/5-biggest-downtimes-of-q2-2020-5h5»