Как клиентский адвокат, я разговариваю с множеством потенциальных сотовых пользователей, которые хотят понять, как наблюдаемость вписывается в свою существующую практику инженерной надежности сайта (SRE). Хотя у меня достаточно знакомства с дисциплиной, чтобы попасть в беду, я хотел больше узнать о том, что делают СРЭ в их повседневной работе, чтобы я был бы лучше помочь им определить, является ли соты хорошим подходит для их потребностей.
После того, как на его собственном чтении я попросил своих товарищных пчел для своих мыслей о различных определениях Sre, плавающих в дикой природе. К счастью для меня, пару товарищей по команде, которые работали как SRES Chimed: главный разработчик адвокат Лиз Фонг-Джонс , Разработчик адвоката Шелби СПЭФ и инженерные интеграции инженера Пол Осман . Лиз рекомендовал Блог пост Из ее времени в Google с видео, где она и Сет Варго Объясните, как СРР и Девопс относятся. Я определенно рекомендую дать ему часы:
После этого Шелби предложил обсудить тему еще одну 1-на-1, и я был рад взять ее на нее. Для большего цвета ниже разговор между Шелби и мной (два пчела в стручке) 🐝
Дженни и Шелби обсуждают SRE и соты
Шелби : Книга Google Sre устанавливает, как они создают надежные системы в Google, но фактическая работа SRES была в течение десятилетий. Просто тот конкретный термин «Инженерия надежности на сайт» была придумана и популяризирована Google. SRE действительно помогает выполнять бизнес-цели, сделав программные системы лучше, потому что «надежность» определяется опытом конечного пользователя.
Один из самых больших вынос для меня из книги Google, которую я не видел в другом месте, был введением SLOS (целей уровня обслуживания) и бюджета ошибок. СРЕС — это те, кто определяет: сколько циклов мозгов мозга мы хотим погрузиться в этот новый код? В сравнении, мы проводим наше время, заставляя наших клиентов счастливее, устраняя технологический долг? Это рода мотивация SLOS, этот процесс принятия решений. ⚖️.
Грубый пример SLO для Netflix-подобной потоковой компании может быть: могут ли ваши клиенты посмотреть свое телешоу с <10 сек буферизацию? Для зрителя не имеет значения, какую часть вашей системы вызывает возможность буферизации, они просто хотят посмотреть шоу. Итак, с SLOS, именно новая идея просто сможет измерить, имеют ли люди плохой опыт, основываясь на том, что ваши системы сообщают.
Строительство на этом, мы можем начать измерять «достаточно хорошо» и «слишком сломанные». «Вопросы и инциденты редко все или — ничто в наше время. Если наш сервис деградирован, как скоро наши клиенты замечают и жалуются? Освежая один раз в многочасовой потоковой передаче сеанса разумно, но дважды на эпизод, вероятно, нет. Таким образом, SRES выполняет работу по выяснению того, как преобразовать измерения, которые вы выходите из вашей системы, в то, что дает вам представление о вашем опыте пользователя в режиме реального времени.
Возможно, в SLO, где 99,9% потоковых сеансов имеют <10-е из буферизации в порядке, люди могут ударить обновление, если есть ошибки буферизации, но это не SRES — это те, кто измеряет, сколько риска мы готовы принять, чтобы построить новую функцию, или насколько ухудшется, мы можем позволить нашу услугу получить. Пока это не так просто, как «новые функции против надежности», — это хороший способ понять его, когда вы впервые узнаете об этом.
В конце дня вся работа, которую мы делаем, это живой эксперимент. У SRES есть палец на импульсе, чтобы увидеть, достаточно ли это достаточно хорошо, чтобы принять решение о компромиссах между созданием нового кода или повышению надежности системы. # Everythingisanexperiment # HoneyCombcorevalues.
Дженни : Да! И это действительно напоминает мне о времени, когда меня соберегают эрол Блейко, директора SRE в Ecobee для их Тематическое исследование клиента Отказ
Эрол сказал, что две вещи, которые застряли мне о своей практике SRE: 1), что SLOS — это его три любимых буквы 😂 и 2), что до соты у них были паралич по анализу всякий раз, когда они попытаются определить их SLOS Поскольку их методология и оснастка для создания SLIS (индикаторы уровня обслуживания), а затем создание SLOS займет недели белого посадочного посадочного посадочного посадочного посадочного посадочного посадочного посадка и постараться, чтобы попытаться получить правильные измерения в месте и точнее. Он сказал, что также потребовалось много времени, чтобы даже посмотреть, были ли их инженерные цели на самом деле что-то, о котором заботится заказчик или бизнес.
Все это было 10x сложнее на Ecobee, чтобы решить, потому что их инструменты и панели мошенничков не хватало функциональности, что делает невозможным итерации на их SLIS и SLOS без более головы, а Yadayadayada. Таким образом, когда EROL видел быстрое итеративную функцию HoneyComb, его запеченную аномалию детектора и встроенные бюджеты ошибок, он сказал, что это была любовь с первого взгляда 😍 И что он «…|» нужно было бы нанять полный рабочий день Grafana и Admin Prometheus, чтобы сделать работу, которую может сделать для него сотами. «
Шелби : Безусловно верно! SLOS помогает командам лучше разговаривать вокруг ваших инженерных усилий, но не всегда легко определить их. И это действительно просто дает всю компанию высокого уровня точки системы и цель системы. SLOS предлагает поддержку командам, которые строят эти системы о том, как сделать их более устойчивыми и понимать влияние изменений.
Дженни : Команды продолжают говорить мне » jenni, мы практикуем sre » И я продолжаю видеть названия «Ор», так что тогда почему некоторые люди все еще считают это нишевой ролью?
Шелби : Вот хорошее объяснение от Пола Османа (инженер-интеграция свинца) на СРЭС:
Количество людей, которые делают SRE в соответствии с тем, как писал в Google, это небольшое меньшинство фактических команд SRE Отказ Часть проблемы с принятием решений на основе « Какое влияние нашего клиента, услуги, бизнес? «В том, что вы должны действительно поговорить с заинтересованными сторонами бизнеса и убедить их сбалансировать разработку функций с уплатой технической задолженности.
Независимо от того, практикует ли команда «по книге» или нет, это сложные беседы. Нелегко получить бай-ин-в. Способность преобразовать между бизнес-приоритетами и инженерными усилиями — основной навык для СРЭС.
На самом деле, компании нанимают СРЭС, а затем силосовые их в OPS или DEVOPS-Y роли без полномочий влияют на приоритетные решения, поэтому команды должны продолжать борьба с огнями бесконечно. Вы видите худшую версию этого в описаниях рабочих мест Sre, где они говорят: « Инженер CI/CD-трубопроводы », но они имеют в виду « управлять нашими конфигурациями Дженкинса, потому что мы не хотим, чтобы разработчики когда-либо думали о сборках. «
В других случаях человек с большим опытом работы с работой OPS нанимается в роль SRE с возможностью реального воздействия. Поскольку они человек OPS, они обращаются к интересным инфраструктурным и платформам, таких как Kubernetes, которые действительно могут решать проблемы с процессом и помочь системам более надежно работать в масштабе. Но эти решения также добавляют сложность, поэтому SRE, который устанавливает все, что все, заканчивается, становится инженером Kubernetes Full-Time — теперь их опыт необходим для хранения системы на плаву.
SRE — это такая сквозная функция, вам действительно нужно найти людей с опытом как практикующего программного обеспечения, а также бизнес-мышление Big-Picture.
Дженни : Очевидно, намного легче сказать, чем сделано. Разговоры достаточно сложно в целом, представьте, что пытаются перейти на все эти конкурирующие интересы (и личности) и как сбалансировать рост в качестве компании по сравнению с уверенностью, что ваш сервис надежен. Это важный компромисс для долговечности бизнеса.
Шелби : О да. Но SLOS — это очень полезный инструмент для этого, особенно когда они опираются на приборочку, которые люди уже используют. Вот почему инвестирование в наблюдаемость может выплачивать дивиденды в вашей надежности.
Когда у вас есть наблюдаемость в бизнес-логике вашей системы (не только метрики системного уровня), а также данные с высокой кардинальностью о том, как все ваши конечные точки ведут себя или даже какие отдельные клиенты испытывают, что позволяет вам быстро пойти и отлаживать критические проблемы, потому что Вы уже собираете богатые данные об этом.
Затем, как только вы часто взаимодействуете с данными и оказываются задавать подобные вопросы и снова, вы можете определить SLI на основе этого запроса или вопроса, которую вы спрашиваете. Поскольку вы уже выставили свой код, чтобы отправить все это контекст все время, вам не нужно выполнять дополнительную работу, чтобы добавить измерения SLI. Затем вы можете использовать инструмент SLO в сотах, чтобы показать вам соответствие вашему измерению со временем! 😉
Плюс (моя любимая часть): SLO SLO SLO автоматически выполняет Пузыриться За событиями, рассмотренные вашим SLI, показывая вам, какие поля выделяются в событиях, которые не выполняют свой SLO. Если вы получите предупреждение, вы можете посмотреть размеры в SLO Bubbleup, и это дает вам действительно хорошую отправной точкой для вашего расследования. Итак, теперь вы связали деловое воздействие (через ваш SLO) с помощью разработчиков, которые вы уже используете, чтобы наблюдать за своими системами в производстве.
Вы должны проверить это Отчет об инциденте С июля. Мартин был по-вызове, и это была первая середина ночной страницы, у нас было некоторое время. Это был предупреждение о горе, поэтому Мартин открыл SLO, который был предупрежден. Bubbleup показал ему, что плохие события были в определенной зоне доступности, поэтому он сказал: « Хорошо, я просто удалю эту зону доступности из группы AutoScaling. «Он получил чтение в ситуации менее чем за пять минут и начал работать над исправлением. 💪
И вот почему Лиз поощрял нас принять SLOS в качестве особенности: наблюдаемость делает расследование проблем намного проще. Это означает, что Вы не просто измеряете то, что важно для бизнеса, вы также расширяете возможности вашей команде на самом деле оказывать положительное влияние на надежность обслуживания как во время инцидентов, так и в повседневной работе.
Дженни : Итак, вы можете получить тот же самый быстрый результат без инструментации вашего кода?
Шелби : Это зависит от вопросов, которые вы спрашиваете. Подход наблюдеемости к SLOS Kinda требует структурированных данных. У большинства людей нет качества данных, имеющих этот уровень гранулярности или понимания пользовательского опыта. Вместо этого люди будут писать свои SLO, как: «У нас должно быть 99,9% времени, — хотя я думаю, что язык обычно более декларативный, чем это. Но это здорово! Важно начать измерять и обучение. Многие команды не имеют пропускной способности, чтобы сесть и спросить: « Сколько дел ряд времени у нас в прошлом году? «И они могут получить другой ответ от каждого инструмента мониторинга, которые они проверяют.
Так что я бы сказал людям: начать с чего-то, и если окажется, вы больше, чем вы определили для вашего SLO, то, возможно, у вас есть бюджет ошибок для получения больше рисков! Вы можете сделать эксперимент на хаос, чтобы узнать больше о вашей системе или тестировать некоторые улучшения производительности, которые вы хотели попробовать. Но, если вы не встретите свой SLO и выясните, что это слишком амбициозно, как цель, вы все еще что-то узнали. Вы можете настроить SLO и сбросить свой бюджет ошибок. Возможно, ваши стандарты слишком высоки, или вам может потребоваться выполнить некоторую надежность, чтобы удовлетворить вашу цель.
Кроме того, важно помнить, что SLOS — это внутренний инструмент, чтобы помочь командам иметь лучшие разговоры о надежности обслуживания. Если ваша гипотеза была неверной или ваша цель была слишком амбициозной, это не плохая вещь, если вы учитесь. Это только проблема, если вы не можете настроить свой подход.
Дженни : Это почти звучит, как обучение важнее, чем удовлетворение сама SLO.
Шелби Я имею в виду, что это вроде. Некоторые команды так мало понимают, как их системы бегают в производстве, которые обращают внимание на любой из этих вещей, сделают огромное значение. Вам не нужно быть в масштабе Google, чтобы получить пользу.
Если у вас нет хорошей наблюдательности, то начните с чего-то простого, как Pinggomy Clears: это даже вверх ?? Посмотрите на историю, если у вас есть это, установите цель, а затем начните отображать свои усилия на достоверность к вашим результатам SLO. Это сопоставление часть трудна, хотя, где входит в игру, где наблюдаемость вступает в игру. Вы можете постепенно добавить более богатые приборы либо через агентов по вашей системе, либо предпочтительно через инструмент вашего кода. Это позволяет вам начать задавать более сложные вопросы и создавать SLIS, которая ближе к пользователю.
Дженни : Так что SLOS не похоже на договор, они внутренний инструмент. Это делает его намного менее запугивающим, чтобы начать экспериментировать с различными видами приборов и SLIS.
Шелби : Цель состоит в том, чтобы узнать, как ваши системы работают в производстве, а инструмент для наблюдаемости позволяет вам более информированы SLIS Отказ Кроме того, вы не получите его правильно в первый раз, это итеративный процесс. И это не должно быть много работы вверх! Наклонность к вашей наблюдаемому инструментов и приборому инструментариям означает, что вам не нужно делать кучу Whiteboard Works, чтобы инженерировать свою собственную SLO System и провожу все сами.
Дженни : Итак, вы упомянули Chaos Engineering. TBH Я не полностью знаком с тем, как это связано.
Шелби : О да! Chaos Engineering — это растущее поле для СРЭ, которые строят на важной работе тестеров и QA. Что делает отличный тестер, состоит в том, что они нарушают программу в новых способах, что разработчик никогда не ожидал, что помогает разработчику писать лучший код или построить лучший пользовательский интерфейс.
Это похоже на Chaos Engineering, кроме сейчас, мы говорим о ваших услугах и инфраструктуре. Эксперименты Chaos включают в себя намеренно нарушение вещей в продуктах 💥, чтобы увидеть, насколько он плохо он может получить без своих клиентов. И похоже на традиционное тестирование, это не только о нарушении вещей, речь идет о обучении. С Chaos Engineering целью состоит в том, чтобы узнать границы ваших услуг. И (как вы можете ожидать), ваше обучение способствует действительно хорошей наблюдательности!
Дженни : Я понимаю! SRE включает в себя много экспериментов. 🤔
Шелби Я имею в виду, одна общая нить среди СРЭ, я знаю, это то, что они действительно заботятся о своей работе. И мы начинаем видеть, что многие СРЭ заинтересованы в сотах. Итак, Дженни, когда вы общаетесь с ними, это все о помощи им посмотреть, как наблюдаемость поддерживает свою существующую работу надежности.
В конце дня (и этот блог) SRES находятся в состоянии сделать вещи лучше для разработчиков и для бизнеса. Эта цикла обратной связи в производстве, общий смысл здания против фиксации, и работа автоматизации проходит долгий путь, чтобы помочь построить более упругие и надежные системы.
Дженни : И удар продолжается. Эй, Шелби, мы должны делать это чаще.
Шелби : Да, это было весело. Я позвоню тебе в следующий раз, когда я почувствую, как приду 😂
Дженни : Ну, ты получил мой номер. 867-5309.
Оставь мне строку!
Если вы заинтересованы в заинтересованности, чтобы поддержать свою надежность работы, я хочу помочь вам добиться этого! Пришлите мне примечание: jenni@honeycomb.io.
Опыт, какой сотовый может сделать для вашего бизнеса. Проверьте это короткое и сладкое демоверсия Действительно
Оригинал: «https://dev.to/honeycombio/sre-honeycomb-observability-for-service-reliability-53e3»