Рубрики
Uncategorized

Новые обычные требования устойчивости инженерии

Понимание инженерии устойчивости имеет важное значение для организаций, которые хотят выжить, когда мы ускоряемся в онлайн -будущее. Tagged с устойчивостью, DevOps, Performance.

Инженерность устойчивости (серия 2 части)

Понимание инженерии устойчивости имеет важное значение для организаций, которые хотят выжить, когда мы ускоряемся в онлайн -будущее. Позвольте мне рассказать вам, что такое инженерия устойчивости и как это может помочь вам катиться с ударами, которые приходят с успехом.

Единственный способ сохранить голландцев дома — это Заземление их потомства , как наше правительство обнаружило дважды. Таким образом, проведя две недели, боясь конца праздничного сезона, на прошлой неделе ознаменовало начало второго сезона обучения на дому за год.

В основном благодаря моей очень структурированной жене и не мужественным детям ( Там нет совпадения ), наше домашнее хозяйство было подготовлено. Мы установили две столы в гостиной, составили графики и принесли ноутбуки, таблетки, наушники, карандаши, бумагу. Но когда настало время открыться цифровые школы, они… не Анкет

Watskeburt?

В нашем случае школа Цифровое обучение и Коммуникация Платформы задыхались от пиковой нагрузки все сгенерированные домашние школьники. К счастью, Netflix/YouTube/The Book шкаф/снаружи все еще был в сети, поэтому мы просто немного отложили неизбежное. К обеду все уже было забыто, заменено обычными отдаленными радостями и разочарованиями.

После обеда, кофе и мороженого, а также вкусный белый шоколад, я, эм … где я? О да, мне началось любопытно о отключении этого утра. И я нашел интересный постоянный отчет о статусе команды Parro . По -видимому, они уже ожидали всплеска и приняли то, что, по их мнению, будет достаточно мер, чтобы пережить его:

«Чтобы быть справедливым, мы ожидали, что Parro со всеми принятыми меры сможет справиться с новым экстремальным пиковым трафиком».

После того, как я представляю, должно быть, было несколько стрессовых часов, команда Parro установила все проблемы и к концу дня снова имела плавно бегущую систему. Слава им. Это то, что наиболее важно для их клиентов, учителей и родителей нашего маленького королевства.

Но их работа не выполнена, как показывают обновления на странице статуса. Где следующее узкое место? Когда это станет проблемой? Как они это исправят? Они когда -нибудь закончили?

Они не будут. Это новый нормальный. Но это не должно быть негативным. Есть способ использовать эти странные времена, чтобы спровоцировать себя в будущее.

Давайте рассмотрим, как.

Пики — новый нормальный

Теперь, когда мы Ускорение в онлайн -будущее , непредсказуемое массовое использование пиков станет просто еще одной правдой. Страшный? Конечно. Захватывающе? Я думаю так. Но, тем не менее, реальность.

Это приведет к двум типам проблем:

  • Известные неизвестные : Проблема, которая еще не произошла, но не удивительна, когда это произойдет. Сбои сервера, проблемы с сетью, такие вещи.
  • Неизвестный неизвестный : Что -то, что приходит как совершенно неожиданные, шокирующие системы в сбое. Или Как назвал Дональд Рамсфелд их : «Те, кого мы не знаем, мы не знаем».

Первый тип достаточно жесткий, чтобы справиться с тем, как он есть. Но хорошо спроектированный, надежный Система может противостоять этим известным неизвестным. Избыточность, повторные переписки, запасные отслеживания, отказа: при разработке высокодоступных систем эти термины знакомы. Мы используем их, чтобы отклонить то, что мы знаем, может пойти не так, как сервер, который идет вниз, или запрос на время службы.

Но как насчет глобальной пандемии, приводящей к внезапному, массовому спросу на систему, предназначенную для другой реальности? Конечно, вы не можете справиться со всеми способами, которыми система может сломаться в этих непредсказуемых условиях?

Но ты можешь. Это называется Устойчивая инженерия Анкет

Обработка неизвестных неизвестных

Инженерность устойчивости — это поле, все еще очень много внутри научной области. Это тесно связано с областями человеческих ошибок, инженерии когнитивных систем и безопасности. Вы знаете, авиакатастрофы, разливы нефти и ядерные катастрофы , этот тип вещей.

Веб -сайты и мобильные приложения редко приводят к экологической катастрофе или смерти. Это не значит, что мы не можем чему -либо научиться из тонны исследований, которые стали сделать наш мир немного безопаснее. Resilience Engineering берет все хорошие вещи, которые предотвращают 747 -е и силовые установки, и применяет их к нашей молодой (программной) инженерной сфере.

Старое мышление, новое мышление

Как мой коллега Ханс Боссенбрук, так красноречиво положил: как необходимость Решение: управляемые событиями, модульные, высоко масштабируемые системы. Но также: Супер сложные архитектуры, напоминающие хаотические паутины Анкет И события миллиарда, протекающие с головокружительной скоростью.

Конечно, это не то, что вы разрабатываете и развернете в конце первого спринта. И это может быть далеко от вашего массивного монолита. Но так как мы живем в веб-масштабе или-уделять время, это логическое решение для реальных проблем. По мере развития технологии, как вы ее управляете. Вы должны бороться с желанием контролировать новую систему так, как вы сделали свою старую.

Вместо того, чтобы сосредоточиться на вещах, которые могут пойти неправильный (Известно неизвестно!), Попробуйте вместо этого Посмотрите на то, что идет справа И делать эти вещи чаще Анкет Это поможет вам и вашим командам:

  • Понять, что приводит к Правильно вещь И сделать это Подробнее довольно часто.
  • Увеличить вероятность Успех вместо нервно ждать следующего срыва.
  • Быть проактивный вместо реактивного.
  • Ездить к Непрерывное улучшение Анкет

Вы правильно прочитали; Речь идет о людях так же, как и оборудование и программное обеспечение!

Системное мышление

Видите ли, системы охватывают как людей, так и технологии. Подумайте об этом: когда вы в последний раз слышали о разработчике, случайно удаляете производственную базу данных? Или наоборот: какой -то Шерлок Холмс сэкономил день, настраивая обстановку, о которой даже не знал самый опытный коллега?

И вот откуда исходит устойчивость: люди делают правильные вещи. Мы делаем это, потому что мы просто знаем, что правильно. У нас есть умение для этого, какая -то интуиция. Это то, что не дает сложным системам разваливаться.

И когда это разваливается, как и на прошлой неделе, что -то должно было подхватить весы. Несмотря на всю тяжелую работу людей и компьютеров, системы время от времени снижаются. И когда они это сделают, они должны быть воспитаны как можно скорее.

Теперь, остановитесь и подумайте: если производство снижается, что вы делаете? Может быть, что -то вроде:

  • Найдите основную причину.
  • Почини это.
  • Убедитесь, что никогда больше никогда не повторится.

Если вы хотите попрактиковаться в инженерии устойчивости: неправильный ответ.

Нет первопричины!

Остановись снова. Подумайте о сложной системе. Мы уже видели, что поддержание работы системы — это баланс. Поиск основной причины подразумевает, что есть Одиночная вещь Это вызвало ошибку. Если хорошее поведение объясняется сложностью, как единственная причина может объяснить неисправное поведение?

Это не может. Это логическая ошибка. Нет основной причины .

Это также означает, что надлежащая посмертная среда не должна объяснять охоту за одну точку отказа. Отличная посмертная среда — это показать, что вы понимаете, что сложность иногда приводит к нежелательному поведению. И что вы понимаете, в ретроспективе, что многие вещи работали вместе, пока они этого не сделали. Но что вы все узнали из этого. Что вы теперь знаете, как делать еще больше вещей правильно.

Другими словами: хорошие посмерти безупречный , балансировать безопасность команды и ответственность.

Устойчиво входить в будущее

Итак, ошибаться … сложный. Недостатки даны. Инженерность устойчивости — это не предотвращение их. Речь идет о том, чтобы делать все больше вещей правильно, чтобы вы могли увеличить сложность при сохранении контроля. Так что, когда следующие неизвестные неизвестные удары вы будете готовы.

Так что достанься! Учиться:

  • Что такое инженерия устойчивости? (Ты уже знаешь!)
  • Как начать практиковать это?
  • Кому мне следует вовлечь?
  • Как нам стать лучше со временем?

Нужна помощь? Следите за Наша серия блогов о Resilience Engineering Чтобы узнать ответы на эти вопросы!

Наблюдения за устойчивостью кости

В то же время, вот отличный разговор доктора Ричарда Кука о устойчивости инженерии и костей. Кости? Да, вы знаете, у вас есть их внутри вашего тела большую часть времени! И они являются отличным средством для объяснения двух типов устойчивости. Смотри и учись:

Инженерность устойчивости (серия 2 части)

Оригинал: «https://dev.to/pietvandongen/the-new-normal-demands-resilience-engineering-4a4j»