Первоначально опубликовано на Неудача неизбежна Анкет
Недавно безумно имел удовольствие интервьюировать Юр Ниньо Роа , Инженер по надежности сайта, архитектор решений и инженерный адвокат хаоса в ADL Digital Labs . Она работала в ролях, от архитектора решений, профессора программного обеспечения, до инженера DevOps, до SRE. Кроме того, Yury является заядлым блоггером и спикером конференции, который регулярно представляет такие мероприятия, как Chaos Conf, Devopsdays Bogotá и многое другое.
В этом интервью мы углубимся в то, что привлекает Юри к SRE и Chaos Engineering, как она определяет устойчивость, а также ее прогнозы на новые тенденции в SRE Landscape.
Я являюсь инженером по надежности сайта и адвокатом по инжинирингу хаоса в Колумбии. Я люблю создавать программные приложения, чтение блогов, писать статьи, решать проблемы с тяжелой производительностью и устойчивости, а также концепции обучения программного обеспечения. У меня 9+ лет опыта разработки и реализации программных приложений с использованием гибких методологий, таких как Scrum и Kanban. Кроме того, у меня есть два года практического опыта поддержки, автоматизации и оптимизации критически важных развертываний.
После получения степени бакалавра я заинтересовался решением программ и задач производительности. Моя первая работа была в качестве разработчика программного обеспечения в отделе зачисления в Национальный университет Колумбии. Каждый семестр мы получали тысячи студенческих заявлений, поэтому нам приходилось часто сталкиваться с проблемами производительности и надежности. После моего пребывания в Национальном университете Колумбии я в течение шести лет работал инженером -программистом в разных компаниях.
В 2017 году я был назначен в команду в Scotiabank, которая имела миссию по решению проблемы с производительностью. Chaos Engineering стала полезным инструментом для нашей команды, поэтому я начал изучать дисциплину, ищу информацию о Google и спрашивая экспертов. Было интересно, как мы смогли вводить неудачи в инфраструктуре и использовать результаты для реализации устойчивости. Я был взволнован идеей разработки приложений с способностью восстанавливаться от неизбежных неудач, без вмешательства человека.
В этом путешествии я обнаружил инженерию надежности сайта. Я обнаружил, что эта область соответствует моим интересам, поэтому я решил изменить свою роль. Я хочу быть частью команд, которые построят более надежный интернет.
Позвольте мне начать с краткого описания компании, в которой я работаю. ADL Digital Labs является компанией в Колумбии, которая предоставляет технологические и инновационные услуги. Мы ведут изменения в цифровой трансформации в Grupo Aval, бизнес -конгломерате. Мы создаем нашу бизнес -стратегию вокруг новых технологий и методологий, таких как разработка программного обеспечения, культура DevOps, аналитика, большие данные и, конечно же, облачные сервисы. Это связано со значительными операционными проблемами. Мы решаем эти проблемы, следуя организационной модели Spotify и используя принципы и практику инженерии надежности сайта.
Это означает, что инженерная команда сформирована в командах, племенах, главах, гильдии и команде поперечной, которая поддерживает их. Мы предоставляем решения для проблем инфраструктуры, безопасности и автоматизации с использованием разработки программного обеспечения. Наша миссия состоит в том, чтобы гарантировать надежность программных продуктов и помочь тем, кто стоит за этими продуктами.
Хотя компания находится на рынке более года, мы преодолели множество проблем, которые позволяют нам иметь сценарии для применения почти всех практик и процессов, описанных в Google SRE Books Анкет
В этот момент наша ключевая ориентирована на перемещение владения инфраструктурой и эксплуатацией в командах разработки программного обеспечения. Наша мантра заключается в том, что если вы участвуете в цикле для создания цифрового решения, вы являетесь владельцем процесса. Вы являетесь частью успехов, и вы несете ответственность за неудачи.
Чтобы достичь этой цели, наши подразделения SRE Automation, Infrastructure и Security работают над созданием отличных инструментов, которые соответствуют принципам SRE. Есть два инструмента, которые сыграли важную роль: Hefesto и Sep.
Hefesto — это оркестратор поставщика Terraform, который позволяет технологическим лидерам предоставлять инструменты, которые являются частью процесса разработки, таких как репозитории и трубопроводы. С Hefesto инженеры могут управлять ролями, доступом и разрешениями на каждом из этих инструментов, и, в случае трубопроводов, они могут настроить этапы и шаги, которые являются частью потока. Мы назвали этот инструмент в честь Гефеста, который является греческим богом кузнецов, металлообработки, плотников, мастеров, ремесленников, скульпторов и металлургии. В нашем случае Хефесто является богом наших инструментов развития.
И SEP (Single Environment Project) является автоматическим рабочим процессом для инфраструктуры предоставления. С SEP инженеры создают ресурсы, которые им нужны в облаке, используя инфраструктуру в качестве кода и gitflow. Они пишут код, чтобы создать ведро, сделать запрос на тягу (PR), который запускает трубопровод, и наша команда одобряет. Как только трубопровод будет выполнен и одобрен PR, ресурс создается. Этот рабочий процесс гарантирует, что он достигает нашего стандарта и достигает требований общепринятой структуры, которая регулирует наше взаимодействие с облаком.
Несмотря на то, что устойчивость была только одним словом, об этом есть что сказать. Позвольте мне поделиться некоторыми определениями, которые, я думаю, превосходны:
Дэвид Вудс сгруппировали четыре основных понятия в его статье: « Четыре понятия для устойчивости и последствия для будущего устойчивости инженерии »:
- Устойчивость — это отскок от травмы и возврат к равновесию
- Устойчивость является синонимом устойчивости.
- Устойчивость — это противоположность хрупкости.
- Устойчивость — это сетевая архитектура, которая может поддерживать способность адаптироваться к будущим сюрпризам по мере развития условий.
Еще одно хорошее определение было предоставлено Джон Вуэлл в книге Устойчивость Инжиниринг: концепции и заповеди Анкет » Устойчивость — это способность организации (системы) быстро поддерживать или восстанавливаться в стабильном состоянии, что позволяет ей продолжать работу во время и после серьезного несчастного случая или в присутствии непрерывных значительных стрессов ».
Для меня устойчивость — это то, что происходит, когда вы или ваша система терпят травму, но ваша способность вставать и продолжать работать, позволяет вам восстановить стабильность, которую вы имели перед травмой без вмешательства третьих лиц. Эта последняя часть является проблемой в наших системах: они должны иметь возможность восстановить устойчивое состояние без вмешательства человека. Устойчивость — это требование, если вы или ваша система хотите быть надежным.
Проактивно работающие эксперименты с Chaos Engineering были продемонстрированы как полезны для крупных организаций и стартапов, как описано в самой последней книге » Chaos Engineering: Устойчивость системы на практике «. Книга содержит перспективы, примеры и повествования от Slack, Google, Microsoft, LinkedIn и Capital One.
Однако, чтобы ответить на этот вопрос, мы должны рассмотреть, что корпоративные организации, которые являются аналогами стартапов, включают в себя множество видов предприятий, таких как традиционные банки, крупные транспортные компании, медицинские отрасли, фарматические фирмы, технологические корпорации, агентства по охране окружающей среды, образовательные учреждения, учреждения, образовательные учреждения, образовательные учреждения, образовательные учреждения, образовательные учреждения и правительство. Каждый из них имеет разные проблемы, правила и рынки для принятия дисциплины, такой как Chaos Engineering. Например, медицинские отрасли работают над созданием критически важных систем, в которых участвуют человеческие жизни. Трудно перейти от одного уровня к другому в модели зрелости хаоса. В правительстве инновации могут быть ограничены правилами и мерами безопасности, которые имеют решающее значение для защиты данных граждан. Я встретился с клиентами, работающими по вызову, которые рассматривают такие темы, как инфраструктура как код, автоматизация, наблюдение и, следовательно, хаос инженерия, как утопия или панацея. Так что мой ответ в том, что это зависит от контекста. Я думаю, что типичные предприятия недостаточно зрелы в этом отношении.
Например, банковские и транспортные компании принадлежат к миру тяжелого и растущего регулирования, с программными системами, которые зависят от устаревших систем, которые не могут быть модернизированы. Тем не менее, они прогрессировали быстрее, чем другие организации, такие как медицинская или фарма. В случае банковского дела они чувствуют конкурентное давление друг от друга и финтех. Есть много историй успеха от крупных банков, таких как Capital One, которые считают инженерию Chaos очень полезной, солидной практикой.
Также было много шума в таких областях, как Интернет вещей (IoT), искусственный интеллект (ИИ), кибербезопасность и человеческое увеличение (HA), которые продемонстрировали большой потенциал. Медицина, транспорт, программное обеспечение, образование и финансовая отрасль выиграли от прогресса этих технологий.
Достижение успеха требует предположения о рисках и провалите много раз для получения устойчивости, поэтому я надеюсь, что мы развиваемся, чтобы изучить, как мы можем использовать инженерию из хаоса, чтобы справиться с болью на пути к предоставлению этих решений. С другой стороны, мы увидим, как Chaos Engineering может извлечь выгоду из искусственного интеллекта. Например, AIOPS — это горячая новая область, и поставщики наблюдения используется для рекламы своих платформ AIOPS. Если обещание AIOPS окажется верным, маркетинг будет влиять на инженерную инженерию в хаосе.
Моя рекомендация — только начать. Это будет сложно, но это цена для развития. Я знаю, что это сложно, но если вы примете решение и начнете выполнять следующие шаги, это осветляет ваш путь.
В Google SRE Book , есть три практики, которые являются ключевыми принципами SRE, поэтому я настоятельно рекомендую начать здесь:
- Определите некоторые цели, но не позволяйте им забрать ваш сон. Потратьте время, которое вам нужно.
- Удалите NOCIVE практики, которые могли бы продвигать вину.
- И помните: «Лучшее время, чтобы узнать о огне — это когда вы в огне. » Это красивая цитата от Джен Хаммонд, Slack Engineering Manager Анкет
Есть отличные ссылки на начало и прогресс в SRE и из Google, но вы можете посмотреть на Этот ресурс для начала.
Оригинал: «https://dev.to/blameless/yury-nino-roa-shares-her-insights-on-chaos-engineering-and-sre-1l44»