Рубрики
Uncategorized

Знать ваши системы сбоя моды

Не так давно в 2009 году поведение в системе (то есть режим путаницы) была частью событий, которые Le … Теги с Куберовщиками, DEVOPS, распределительными масштабами.

Не так давно, в 2009 году, поведение в системе (т.е. режим спутанность сознания) был частью событий, которые привели к потере Air France Flight 447. Пилоты отреагировали на потерю высоты, потянув на палочку, которая была бы соответствующей реакцией с полностью включенным автопилотом, что затем поставило бы самолет в конфигурации скалолазания. Тем не менее, системы самолета ввели в режим меньшую автоматизацию («Прямое закона» в условиях Airbus) из-за блокированного датчика воздушного пространства, позволяя пилотам поместить плоскость в конфигурации носовой стойлы, из которой они не восстановили.

Мы прошли долгий путь в системах, чтобы построить надежное программное обеспечение и методики, однако системы все еще не проваливаются все время. Что делает некоторые системы более склонными к провалу, чем другие?

Часто мы приписываем неспособность сложности. Это справедливый ответ, но опыт и эволюция программного обеспечения говорит, что это еще больше. Бег большим ( В некоторых случаях буквально крупнейших ), сложные системы более десяти лет, один рисунок, который я неоднократно вижу, это режимы или режимы неудачи в целом. И когда не сделано правильно, режимы могут сделать систему по сути нестабильной. Каждая система имеет режимы неудачи, но наиболее распространенные и противные, введены бимодальным поведением.

В книге « лучшие ангелы нашей природы », Стивенский розовый пинец рассказывает о том, как сегодня мы можем жить в самом мирное время в истории нашей вида, несмотря на то, что рассказывает нам новости. ( Настоятельно рекомендуется, если вы еще не читали )

Я знаю, это сырная, странная параллельна, чтобы рисовать здесь (с сбоями системы) Но сегодня мы (системные операторы) могут жить в самых мирных (то есть меньше боли) время в истории наших видов (систем). Это потому, что годы академических исследований пошли в эту очень тему.

Режим — это отдельная настройка в интерфейсе машин, в котором тот же пользовательский вход будет производить воспринимать результаты, отличные от тех, которые он будет в других обстоятельствах. например Для VI есть один режим для вставки текста и отдельный режим для ввода команд ( извините, пользователи Emacs Но я уверен, что вы получите точку ). Это довольно доброкачественные режимы, которые вы имеете дело с каждым днем, и являются лишь нюансы для начинающих.

Тем не менее, есть режимы, которые могут вызвать фактическое время простоя производства. Вы можете признать некоторые из них:

  • Если через Kubernetes стручка обычно вызывает локальную службу кластера, но может Откат к внешней службе при определенном условии, что это бимодальное поведение.
  • Если вы звоните вашей базе данных каждые 5 минут (счастливый путь), но в случае неудачи, вы повторите каждые 100 миллисекунд, это бимодальное поведение системы.

Возьмите эти сбой моды серьезно. Бимодальный/резервное поведение сложнее проверить. Они осуществляют свою систему таким образом, где «запасной вариант путь» или «вторичный режим» станет меньше тестировался в течение долгого времени. Ваш основной режим станет устойчивым, но в день последующее поведение пинает (и имеет скрытые вопросы), доступность вашей системы будет подвергаться риску, и у вас будут неприятные отключения.

Вот некоторые альтернативы, чтобы избежать бимодального поведения в примерах, которые я поделился выше:

  • Если POD Kubernetes вызывает кластерное локальное обслуживание, и служба недоступна, вместо того, чтобы падать на внешнюю службу, отказ от переработки на реплику вашего кластерного локального обслуживания или улучшить надежность вашей кластерной локальной службы.
  • Если вы звоните вашей базе данных каждые 5 минут для счастливого пути, сохранить ту же самую частоту, когда он выходит из строя. С 100мс, база данных может получить громовой стадо 3000X вызовов, потенциально вызывая еще один набор каскадных отказов ( это тема закрою еще один день )

Избегайте бимодального поведения при строительных системах. Знайте свои способы отказа. Провалиться чисто и предсказуемо. Это простая концепция, которая принесет больше «мира» в работающих системах.

Оригинал: «https://dev.to/fawadkhaliq/know-your-systems-failure-modes-4cbl»