Рубрики
Uncategorized

Sre2aux : Как контроллеры полета были первыми SRES

Первоначально опубликовано по неудаче, неизбежно. Написано: Джефф Уайт Вначале были … Tagged с SRE, DevOps.

Первоначально опубликовано на Неудача неизбежна Анкет

Написано: Джефф Уайт

В начале были контроллеры полетов. Это была странная порода. В первые дни США по стимулированию космической программы Большинство американских домохозяйств, независимо от класса или расы, знали имена астронавтов. Джон Глен, Алан Шепард, Нил Армстронг. Пилотируемая космическая программа была объединяющей силой национальной гордости.

Но никто не знал имена анонимных мужчин, а затем женщин, которые привели астронавтов на орбиту, на Луну и, что самое важное, вернули их на землю. Миссия Аполлона 13 изменила все это не потому, что она была успешной, а потому, что это был успешный провал; Никто не умер. Ссылка на изображение Он был увековечен в Фильм с тем же именем Анкет Директор полета Джин Кранц (которого играет Эд Харрис) стал известен как «Строительный Ракетный Человек», который произвел убедительную фразу, которая исчезает в истории. В сознании каждого инцидента он запечатлен: «Неудача не вариант».

Но так же, как и Apollo 13, вторая лунная миссия, прямо перед Аполлоном 13, почти не попала на орбиту. Это история первых 10 минут этой миссии, Аполлон 12. Теперь вам может быть интересно, какое отношение все эти винтажные космические знания имеют к инженерии надежности сайта в 21 веке? Ну, я приглашаю вас читать дальше и узнать.

Аполлон 12 был второй лунной миссией. Эта миссия, которая была запущена через 4 месяца после Аполлона 11, будет более научной направленностью. Экипаж состоял из командира Пита Конрада, пилота командного модуля Ричарда Гордона и пилота Lunar Module Alan Bean. Директором полета, который будет командовать управлением миссией, был Джерри Гриффин. Это был его первый раз в этой роли, повышенный от контроллера полета.

Погода в Кейп Кеннеди утром 14 ноября 1969 года была полностью пасмурной с частым дождем. Было правило НАСА, чтобы не запустить в каких -либо кучевных облаков. В то время как в этом районе были некоторые кумулонимбус, были некоторые споры о том, действительно ли это правило применяется, поэтому оно в конечном итоге отказалось. Обратный отсчет отлично вышел, и Apollo 12 снялся в 11:22:00, прямо в начале трехчасового окна запуска.

Несомненно, астронавтам или контролю миссий в то время, Молния ударила ракету, не один, а дважды Анкет Сначала через 37 секунд после сбора и снова через 52 секунды. Первый удар вызвал защитные схемы на топливных элементах в сервисном модуле, чтобы переехать, взяв все три топливных элемента в автономном режиме вместе с большей частью инструментального прибора модуля командного модуля. Второй удар, через 15 секунд спустя выбил индикатор высоты «8-мяча» и забрал телеметрический поток обратно к управлению миссией. Экипаж и контроль миссии летали слепыми.

Тем не менее, Saturn V продолжал нормально летать, потому что доктор Вернер фон Браун, главный архитектор ракеты, не доверял людям задачу поставить одну из его ракеты на орбиту. Он настаивал на системе руководства для Saturn V отдельно от любого контроля в CSM (модуль командной службы), где астронавты проживали во время взлета и повторного входа. Это решение, вероятно, спасло миссию и, возможно, жизнь астронавтов. Ссылка на изображение

В то время никто не знал, что случилось, но они знали, что это плохо. Если они не смогли найти проблему и торопиться в спешке, им придется выполнить прерывание запуска, что означало привлечение LES (система Escape Escape) в верхнюю часть командного модуля. Это вытащило бы командный модуль (CM) вдали от остальной части Saturn V до того, как управление миссией взорвется до конца ракеты. Это было не просто деморализующим, но и очень опасным для экипажа и окружающей береговой линии Флориды. Ссылка на изображение

Здесь входит 24-летний контроллер полета Джон Аарон. Аарон был не просто контроллером полета, он был EECOM (электрический, экологический менеджер и расходные материалы). Eecoms были контроллерами полетов, которые демонстрировали высокую степень профессионального поведения, были осведомлены почти по вине и имели менталитет «взять на себя ответственность». Они прошли крутой кривую обучения, чтобы заработать эту роль. Все ожидали, что Аарон порекомендует запуск прерван, но он этого не сделал. Он послал директиву директору полета Джерри Гриффину: « Попробуйте SCE в Aux » (вспомогательный).

Никто не знал, что это означало изначально, но пилот лунный модуль Аль Бин. Он вспомнил, что это был переключатель над левым плечом. Он перевернул его, и вся телеметрия вернулась. Аполлон 12 продолжил орбиту без дальнейших инцидентов.

«Set Sce to Aux», казалось, появился из ниоткуда, но это не было предположением. Возможно, азартная игра, но азартная игра, основанная на годах обучения, способностей и, самое главное, распознавание образцов. Прежде чем мы перейдем к сравнению контроллеров полетов с SRES, давайте немного узнаем о контроллерах полетов в течение срока службы одного конкретного контроллера полета при сдвиге во время запуска Apollo 12, Джон Аарон. Ссылка на изображение Джон Аарон был выпускником Юго -западного университета штата Оклахома. «Мои родители ожидали, что мы все пойдем в колледж, и семья была привержена поиску способа сделать это», — сказал Аарон. «Если бы это не было окружающей средой, в которой я воспитывал, я бы, скорее всего, не ушел».

Он получил двойную степень по физике и математике, и когда НАСА приехала на работу, он подписался на работу в Управление полетов в управлении в Центре Modered Mission в Хьюстоне. Он думал, что заработает немного денег, поможет своей стране и в конечном итоге вернется в Оклахому, чтобы продолжить сельское хозяйство. Но, как сказал Аарон, «исследование космоса стало моей новой страстью, и я никогда не возвращался к ранчо».

Хорошим кандидатом для контроллера полета является универсалист со специализацией в конкретной науке. На первый взгляд, контроллер полета работает перед консольным просмотром, обработкой и мониторией данных телеметрии, поступающих из различных систем космического автомобиля в режиме реального времени.

Эта информация, в старые времена, пройдет мимо на ЭЛТ (катодный лучевой труб). Контроллеры полета также носили гарнитуры, где они контролировали 12 аудио -петлей одновременно. Это явно было условием информационной перегрузки. Но, как писал Маршалл Макклюэн, «информационная перегрузка равна распознаванию образца».

Опытный контроллер полета, адаптированный к тому, чтобы принять все эти визуальные и звуковые ввод и проницательные шаблоны. Они были искусны в интерпретации этих моделей и преобразовали их в советы и рекомендации для директора полета, который затем принимает решения. Решения ориентированы на данные, но данные «обрезаны» опытом и суждением. Ссылка на изображение

Была станция, которая была укомплектована «лучшим из лучших», и это была eecom. Роль требовала, чтобы вы имели возможность обрабатывать свою «информационную перегрузку» и увидеть «лес и деревья».

Обучение Аарона и способность увидеть эти модели позволили ему сделать «Set SCE To Aux», который он сделал в это ноябрьское утро. Как он узнал, чтобы попробовать это, а не просто сигнализировать о прерывании? Это вернулось к процессу неустанных моделирования и бурения для того, что могло пойти не так.

Около года назад он видел эту же схему, помогая команде контроллера полета в симуляции. Команде удалось отключить основную электроэнергию на оборудование для кондиционирования сигнала CSM, которое не было частью первоначального моделирования. В любом случае, странная счета телеметрии была, как он сказал «выгравирован в своем мозгу». Ему было любопытно, что можно было сделать, чтобы оправиться от этого. Это была не его тренировка, но его естественное любопытство одолело его. Он определил, что установка переключателя оборудования для кондиционирования сигнала для обеспечения восстановления мощности резервного копирования для систем телеметрии моделирования.

Переключатель был довольно неясным, просто еще один переключатель между сотнями коммутаторов в командном модуле. Никто в контроле миссии действительно не знал, где это находится, и контроллеры полетов гордятся тем, что знают все. Даже командир миссии астронавта Пит Конрад не знал, где это, но, к счастью, Алан Бин, пилот лунный модуль вспомнил это. Он перевернул его, и телеметрия вернулась. Они больше не летали слепыми. Оказавшись на орбите, все системы были проверены, и было установлено, что не было серьезного повреждения космического корабля.

Джон Аарон и его команда позаботились о том, чтобы подготовиться к этой миссии. Это глубокое призвание и гордость за то, что он контроллер полета иллюстрируется табличкой на двери управления миссией.

  1. Чтобы привить себе эти качества, необходимые для профессионального превосходства:
  • Дисциплина — способность следовать так же, как и руководить, зная, что мы должны овладеть себя, прежде чем мы сможем овладеть нашей задачей.
  • Компетентность — нет никакой замены полной подготовки и полной преданности, поскольку пространство не будет терпеть небрежную или равнодушную.
  • Уверенность — вера в себя, а также на других, зная, что мы должны овладеть страхом и колебаниями, прежде чем мы сможем добиться успеха.
  • Ответственность — осознавая, что его нельзя перенести на других, поскольку она принадлежит каждому из нас; Мы должны ответить за то, что мы делаем — или не можем сделать.
  • Прочность — встать, когда мы должны; Чтобы попробовать еще раз, даже если это означает, что следует по более сложному пути.
  • Командная работа — уважение и использование способностей других, понимая, что мы работаем для достижения общей цели, для успеха зависит от усилий.
  • Бдительность* — всегда внимательно относится к опасностям космического полета; Никогда не принимая успех в качестве замены строгости во всем, что мы делаем.

2. Чтобы всегда осознавать, что внезапно и неожиданно мы можем оказаться в роли, когда наша деятельность имеет окончательные последствия. 3. Признать, что величайшая ошибка — не пытаться и потерпеть неудачу, но в попытках мы не прилагаем все усилия.

*Бдительность была добавлена в 2003 году после катастрофы Challenger. После расследования было обнаружено, что одним из факторов, способствующих аварии, была «опора прошлого успеха в качестве замены практики звуковой техники».

Как видите, есть много гордости и самооценки, которая станет и является контроллером полета. Многие чувствовали, что это вероучение распространилось на то, как они провели свою личную жизнь.

Теперь контекст установлен. Какое это имеет отношение к инженерии надежности сайта? Что ж, Google увидел, как SRE прочно укоренился в контроле миссии НАСА. Это ссылается на патч на куртке, который когда -то был выпущен всем Google SRES. Ссылка на изображение Ссылка на изображение

Должен ли все SRE на уровне владения контроллерами полетов? Возможно нет. Но есть много выводов, которые, если они отмечаются, могут сделать нас лучше на нашей работе. Давайте посмотрим на вероисповедание контроллера полета и то, как оно относится к современному SRE. Первый арендатор — это список характеристик.

1. Чтобы привить себе эти качества, необходимые для профессионального превосходства:

  • Дисциплина — способность следовать так же, как и руководить, зная, что мы должны овладеть себя, прежде чем мы сможем овладеть нашей задачей.
  • Компетентность — нет никакой замены полной подготовки и полной преданности, поскольку пространство не будет терпеть небрежную или равнодушную.
  • Уверенность — вера в себя, а также на других, зная, что мы должны овладеть страхом и колебаниями, прежде чем мы сможем добиться успеха.
  • Ответственность — осознавая, что его нельзя перенести на других, поскольку она принадлежит каждому из нас; Мы должны ответить за то, что мы делаем — или не можем сделать.
  • Прочность — встать, когда мы должны; Чтобы попробовать еще раз, даже если это означает, что следует по более сложному пути.
  • Командная работа — уважение и использование способностей других, понимая, что мы работаем для достижения общей цели, для успеха зависит от усилий.

Давайте разберем каждую характеристику и то, как она относится к SRE.

Дисциплина — способность следовать так же, как и руководить, зная, что мы должны овладеть себя, прежде чем мы сможем овладеть нашей задачей.

Не случайно, что первая характеристика — дисциплина. И понятно, что многие люди имеют негативную коннотацию, когда дело доходит до этого слова. Один из отрицательных коннотаций — наказание Анкет Тем не менее, более продуктивно думать о других коннотациях дисциплины в отношении SRE. Инжиниринг надежности сайта-это дисциплина (что означает область исследования или система правил), где мы проводим результаты измерений, применяем согласованные и кодифицированные процессы и применяем результаты либо в режиме реального времени, либо посредством последующих действий. Этот цикл повторяется снова и снова. Дисциплина — это уверенность. Строгость в процессах имеет значение. Если вы знаете, что ваши товарищи по команде будут выполнять и документировать, вы можете разрешить инциденты с большей уверенностью.

По мере того, как мы автоматизируем и расширяем измерения и процессы, мы будем разрешены для выполнения этих циклов быстрее и с большей точностью. Если мы можем действовать на побочных продуктах процессов (либо в реальном времени, либо в последующих действиях) как можно более эффективным образом, то процессы становятся самоопределяющимися, самокорректирующимися, а рабочие процессы, покрытый потоком, возникает естественным образом. Эта часть принимает дисциплину, как в самоконтроле и упорядоченном поведении. Как это выглядит для SRES и их организаций? Ну, некоторые примеры могут быть:

  • Наличие системы продажи билетов и открыть билеты на выполняемую работу или собираются выполняться, какими бы тривиальными. Обновление прогресса билета (как можно ближе к режиму времени для предотвращения потери информации) одинаково важно.
  • Придерживаться установленных SLO и бюджетов по ошибкам и усовершенствовать их с течением времени. Но всегда помните, что лучшие, большинство настроенных SLO и бюджетов по ошибкам в одиночку просто становятся «шумом перед поражением», если вы не предпринимаете действий по основным проблемам. Они, вероятно, скрываются в вашем отставании, медленно истощают ваш бюджет ошибок. Работайте над обновлением ваших систем мониторинга и инструментах и примите меры для достижения ваших целей.
  • Выполнение, чтение и пересмотр инцидентов ретроспективы и следить за элементами действий. Это очень важно, так как это единственный способ, которым вы можете улучшить надежность вашей работы. Просто внедрение последующих действий в отставание не перемещает надежность на циферблат и может привести к повторяющимся инцидентам.

Компетентность — нет никакой замены полной подготовки и полной преданности, поскольку пространство не будет терпеть небрежную или равнодушную.

Некоторые из наших инцидентов «незапланированная работа» — это вещи вне нашего контроля, как погода, была с Apollo 12. Во время этих инцидентов SRES переключается от цикла разработки на операции, цикл управления инцидентами. Это похоже на то, что контроллеры полета переключаются из цикла мониторинга в инцидентную команду/цикл управления, если они обнаружат аномалии, которые требуют срочных действий. Это переключение контекста требует компетентности.

Когда Джон Аарон принес этот уровень компетентности в игру, как мы, как SRES, сделать то же самое? Речь идет о лидерстве. Хорошие лидеры подготовлены и посвящены. Они относятся к своим командам с осторожностью и уважением. Они из тех людей, с которыми вы хотите попасть в космический корабль.

Вот несколько примеров того, как выглядит компетентное лидерство в действии.

  • Не дерзкий. Эти товарищи по команде здесь, чтобы помочь, а не в этом во славу.
  • Люди приходят к ним, потому что чувствуют, что получат руководство.
  • Можно рассчитывать на помощь или дать инструменты, чтобы помочь товарищам по команде помочь себе.
  • Удобно сказать: «Я не знаю. «Этим лидерам не нужно ничего доказывать ни для кого, они говорят своими руками. Они воспринимаются как доступные.

Уверенность — вера в себя, а также на других, зная, что мы должны овладеть страхом и колебаниями, прежде чем мы сможем добиться успеха.

Уверенность течет от компетентности. Уверенный SRE не угрожает уверенность их сверстников. Они верят в сильные стороны своих товарищей по команде и понимают, что стоя рядом с этими людьми дает им еще больше уверенности. Уверенный SRES также стремится повысить уровень уверенности всех участников.

На практике это может выглядеть как отличный отзыв о пиаре. Или это может помочь товарищам по команде разработать полезную книгу для сложной повторяющейся проблемы. Однако этот уровень лидерства всегда влечет за собой две вещи:

  1. Лидеры помогут товарищам по команде решить проблемы, но не решать их для команды.
  2. Лидеры — тренер, а также игрок и стремятся взять на себя всю команду.

Ответственность — осознавая, что его нельзя перенести на других, поскольку она принадлежит каждому из нас; Мы должны ответить за то, что мы делаем — или не можем сделать.

Возьмите на себя ответственность за решения и звонки, которые вы совершаете, действия, которые вы выполняете, или о действиях, которые вы просите других выполнять. Если вы сломаете это, у вас есть. Это не всегда означает, что у вас есть навыки, чтобы исправить это. Но вы можете направить усилия по реагированию на инциденты и сплотить свою команду, предоставив подробную информацию о том, как произошел инцидент и оказав помощь в маршалинге для быстрого восстановления службы.

Это также означает взять на себя ответственность за надежность вашей организации и выступать в качестве стюарда для счастья для клиентов. SRES — это защитники клиентов, которые обеспечивают удовлетворение пользователей своим опытом. Это огромная ответственность, требующая огромного количества общения между командами, понимания, сочувствия и видения удовлетворенности клиентов.

Прочность — встать, когда мы должны; Чтобы попробовать еще раз, даже если это означает, что следует по более сложному пути. Иногда вы знаете решение. Иногда это тяжелая битва, чтобы убедить других в том, что вы знаете. Это искусство, чтобы выдержать вашу позицию на месте, которую, как вы знаете, имеет существенные заслуги, не выпивая мнения других. Это тип выносливости, который требует самоанализа и способности привлекать других к знаниям, которые вы представляете.

В других случаях вы уходите от 12-часовой смены, и вы ужинаете, ожидая вас дома, и все, что вырывается. Если вы носите пейджер, и ваша команда нуждается в вас, ужин должен ждать. И после того, как инцидент закончился, вы должны задокументировать основную проблему надежности, ведущую к этому инциденту в последующих действиях, поэтому в будущем у вас меньше ужинов. Это тип выносливости, когда вы стремитесь убедиться, что последующие действия не просто брошены в отставание и забыты.

Командная работа — уважение и использование способностей других, понимая, что мы работаем для достижения общей цели, для успеха зависит от усилий.

Вы помните имена контроллеров полета или астронавтов? В то время как астронавты часто входят в историю, контроллеры полетов, как правило, упускаются из виду. Однако одно можно сказать наверняка: астронавты помнят эти контроллеры полетов. Как еще миссия будет успешной? Командная работа является ключевой, даже когда некоторые работы более заметны или блестят, чем другие.

В космическом полете астронавты, а также контроль миссий установили команды для миссий. Астронавты тренируются как команда, чтобы они знали, чего ожидать друг от друга не только в кризисе, но и в обычной температуре работы, которую необходимо выполнить во время миссии. Управление миссией также имеет команды контроллеров полетов, которые тренируются вместе по той же причине.

Существует преимущество в подходе к таким вещам, как на выходе с точки зрения команды. Всегда должен быть первичный и вторичный по вызову. Он рассеивает количество стресса, когда возникают инциденты. Это также может сократить время до разрешения и восстановления услуг, так как есть два мозга с различными видами, атакующими проблему.

Бдительность — всегда внимательна к опасностям космического полета; Никогда не принимая успех в качестве замены строгости во всем, что мы делаем.

Это несколько мелодраматично по сегодняшним стандартам, так как космический полет в начале 70 -х был очень пугающим. Теперь это может быть менее пугающим, но столь же опасно. Те из нас, кто не работает в аэрокосмической промышленности, все еще могут быть усыплены в нормальной жизни наших повседневных операций. Это включает в себя нормальность неудачи ежедневно.

Мы все еще должны быть бдительными, так это черный лебедь. События Black Swan — это события, для которых вы не тренируете, потому что они не могут случиться. Пока они не сделают. Они живут в пространстве того, чего вы не знаете, чего не знаете.

SET SCE2AUX не был событием Black Swan. Джон Аарон видел шаблон раньше в симуляции. Но крио -танки, взрывающиеся на Аполлоне 13, были черным лебедем; Никто не ожидал, что такое событие может произойти. Там не было никаких симуляций, и никаких тренировок. Черные лебедя не могут быть предсказаны своей природой. Весь мониторинг в мире их не найдет. Как только черный лебедь происходит, мы оглядываемся назад и говорим: «Мы должны были увидеть, как это произойдет. » Оглядываясь назад всегда 20/20. Но эти события перестают быть черными лебедями, когда мы имеем дело с ними.

Способ выжить черный лебедь должен быть устойчивым. Устойчивость держит вас в игре. Он покупает вас время, чтобы дисциплина, компетентность и командная работа могла начаться и позволить вашей команде выходить из ситуации. Вы можете развивать большую устойчивость, обучаясь симуляциям как команда. В то время как Black Swan Event of Apollo 13 не появилось в тренировке, как Джон Аарон видел в Аполлоне 12, были практиковались различные элементы решения. Экипажи нужна была способность мыслить нестандартно и время сшить решения вместе. Плюс командная работа, чтобы реализовать и отменить работу на тупике, оставаясь сосредоточенным и безупречным.

2. Чтобы всегда осознавать, что внезапно и неожиданно мы можем оказаться в роли, когда наша деятельность имеет окончательные последствия.

В первые дни космического полета изменение аппаратного обеспечения после того, как транспортное средство покинуло стартовую площадку, было очень опасным, если не практически невозможным, что требует EVA (экстра-ве-вечеря активность, «космический переход»). Изменение программного обеспечения было действительно очень трудным, так как большая часть программного обеспечения была запечатлена в памяти только для чтения, с лишь несколькими сотнями слов ясной памяти, которые можно было бы использовать для разумного «исправления» существующего кода. Как только ракета ушла, не было никакого поворота назад: либо миссия продолжалась, либо будет прервать.

Сегодня у нас много предметов роскоши, но мы могли бы учиться на некоторых практиках, которые регулярно выполняли контроллеры полетов. Основной, которую я хочу выделить здесь, это тренировки и симуляции. Контроллеры полета, когда они не активны на миссии, постоянно смоделируют миссии. Они смоделировали не только «счастливый путь», но и «несчастный путь».

Способность вводить ошибки в моделирование была ключом к подготовке к космическому полету с живой экипажем или фактическими полезными нагрузками. Хотя это может быть мрачным, когда экипаж умрет снова и снова в симуляторе увеличивает вероятность того, что они будут жить, если подобные ситуации появятся во время фактического полета. Воспоминание об одном из этих симуляций позволило Джону Аарону сделать свой звонок «SET SCE2AUX». SRES сегодня имеет доступ к этим процессам через инженерные платформы и методологии HAOS, а также с помощью проверенных методов, таких как Canarying Deplatements.

3. Признать, что величайшая ошибка не в том, чтобы попробовать и не было, но в попытках мы не прилагаем все усилия.

Команды могут выполнять тренировки на основе намеренно неправильной конфигурации конфигураций. В предыдущей компании я руководил инженером клиентов. Я бы проводил еженедельные упражнения по устранению неполадок. Вот как они работали:

  1. Накануне члены команды потребуют времени, чтобы намеренно найти способ «сломать» продукт с помощью тонкой неправильной конфигурации. Им также придется найти способ восстановиться. Они напишут сценарий вместе с решением и подготовили его к следующему дню.
  2. В день феерии мы все собирались в военную комнату с большим экраном проектора. Люди, которые разработали сценарий, поставили бы их имя и идентификационную фразу на лист бумаги, который попадет в шляпу или миску.
  3. Содержание чаши будет затем заскоп, а случайный человек за пределами группы выберет одну запись. Запись будет прочитан вслух группой, и у человека, владеющего входом, будет 15 минут, чтобы построить неудачу со всеми из комнаты.
  4. Когда они были готовы, мы снова входили в комнату, и человек заявил бы, каким был симптом, и продемонстрировал это, как если бы клиент звонил. Затем остальная часть команды попыталась определить проблему (существует разница между симптомами и проблемами) и придумала стратегию смягчения. Им разрешено только задавать поверхностные вопросы создателю сценария, например, «это параметр конфигурации, который вы намеревали? «Этот этап игры был в коробке с 45 минутами.
  5. В конце симуляции, если команда не поняла это, создатель преодолеет инъекцию разлома и путь к восстановлению/смягчению.
  6. В конце месяца награды дают создателю, который придумал лучший сценарий или команду, которая решила проблему самой быстрой. Часто один из этих сценариев появлялся в реальных днях инцидента с клиентами или неделями спустя.

В начале стало очевидно, что новые люди в команде были более искусными в создании трудных для решения сценариев, чем старшие участники. Казалось, это из -за «экспертной предвзятости» (эксперты знали, как выглядит счастливый путь, а некоторые, возможно, разработали его). Старшие участники также ожидают, что продукт будет использован определенным образом, и никогда не рассматривает «глупые ошибки», или краевые случаи, которые не знакомы с продуктом. Новые инженеры подошли к продукту с разумом новичка, и они еще не знали разницы между «глупой ошибкой» и общим вариантом использования (так же, как и новые клиенты).

Вот таблица картирования ассоциаций. Это действует как краткое изложение того, что делали контроллеры полетов (и все еще делали) и что некоторые из нас, как SRES. Некоторые функции определенно развивались с течением времени.

Как один босс в компании, в которой я работал несколько лет назад, напомнил мне: «Мы просто продаем билеты, не приземляя космический челнок. «Это правда, что в большинстве наших ролей человеческая жизнь не поставлена на карту, как у пилотируемого космического полета. Тем не менее, репутация компании и доход часто. Мы все еще можем подходить к нашей работе с эквивалентным количеством преданности делу задач под рукой. Ссылка здесь

Инжинирирование надежности сайта в 21 веке все еще развивается. Поскольку системы, за которые мы несем ответственность, становятся более важными для нашей инфраструктуры глобальной коммуникации и жизнеобеспечения, наша работа начнет жить на балансе. Как и в первые дни космического полета, за исключением того, что у нас будут эти обязанности в масштабе.

Посмотрите на Интернет в качестве примера для новинки, которая с течением времени стала более важной. Всемирный интернет был устойчив к черному лебесю глобальной пандемии (мы могли бы обсудить, был ли это черный или серый лебедь, но это еще одно эссе сама по себе). Для многих предприятий систему телеконференций, такие как Zoom, Skype и другие, должны были привести к тому, что он закрывает человеческое общение, когда офисные здания закрылись. Эти системы должны были адаптироваться к огромному увеличению клиентов и трафика, часто создавая инфраструктуру, которая была запланирована в течение следующих трех лет в течение нескольких недель.

И на протяжении всего этого лежа все это лежало в глобальной интернет -инфраструктуре, которая в значительной степени осталась незамеченной и незамеченной, потому что она была настолько устойчивой. Его операторы на протяжении десятилетий практиковали свою собственную версию вероисповедания контроллера полета. И, как и их предшественники, никто не знает их имен.

Я завершу с небольшим уважением к нашим прадранным-нему, контроллерам полетов управления миссией. Я подчиняюсь вам SRES Creed, узорчившись после вероисповедания контроллера полета, надеясь, что они сохранились с духом, но адаптируя его для вызовов 21 -го века под рукой. Пусть мы согласимся с вашим наследием, когда мы вступаем в себя. В масштабе.

SRE’s Creed

  1. Чтобы привить себе эти качества, необходимые для профессионального превосходства:
  2. Дисциплина — возможность рассчитывать на то, на что вы подписались. Представьте себе также черты последовательности и самоотверженности.
  3. Компетентность — нет никакой замены полной подготовки и полной преданности, сложные системы непостижимы.
  4. Уверенность — уверенность — это не то же самое, что дерзость. Верьте как в других, так и на себя и веду, подняв всех вокруг вас.
  5. Ответственность — осознавая, что его нельзя перенести на других, поскольку она принадлежит каждому из нас; Мы должны ответить за то, что мы делаем — или не можем сделать.
  6. Безупречно — понимая, что каждый не рассматривает мир или ситуацию, как вы, и что их взгляды также являются действительными и полезными. Будьте внимательны к этому во время кризисов и будьте уважительны к этому во время следующих ретроспектив.
  7. Командная работа — понимая, что каждый член вашей команды обладает уникальными навыками, которые могут быть привлечены к задачам, и привести к тому, чтобы вы могли оптимизировать этот подарок.
  8. Бдительность — всегда внимательна к возможным черным лебедям; Никогда не принимая успех в качестве замены строгости для черных лебедей, когда вы меньше всего ожидаете их.
  9. Устойчивость — вы не можете предсказать черного лебедя, но если ваши системы и процессы устойчивы, вы можете пережить их.
  10. Чтобы всегда знать, что внезапно и неожиданно мы можем оказаться в роли, когда результаты наших действий могут иметь последствия для всех вокруг нас, всей компании и, возможно, мира.
  11. Признать, что величайшая ошибка не в том, чтобы попробовать и не было, но в попытках мы не прилагаем все усилия. Неудача — это всегда вариант, но сдача нет.

Если вам понравился этот пост в блоге, проверьте эти ресурсы:

Оригинал: «https://dev.to/blameless/sre2aux-how-flight-controllers-were-the-first-sres-2079»