Рубрики
Uncategorized

Туп надежность и методы масштабирования от экспертов в Citrix, Greenlight Financial и Incognia

Первоначально опубликовано по неудаче, неизбежно. Время простоя стоит больше, чем доллары. Это также стоит usto … Tagged с DevOps, SRE.

Первоначально опубликовано на Неудача неизбежна Анкет

Время простоя стоит больше, чем доллары. Это также стоит клиентов счастья и доверия. Итак, как команды максимизируются за надежность при масштабировании? Инструмент, общение, наблюдение и все больше играют в полную стратегию надежности.

В недавнем столе лидеров отрасли, организованном безупречным, лучшие эксперты обсуждали лучшие практики для реагирования на инциденты, масштабирование надежности и как разработать с учетом клиента. Участники группы клиентов включены:

Ниже приведены несколько ключевых пониманий из их разговора.

  • Масштабирование для надежности и безопасности: Возможность провалиться, а развертывание сине-зеленого-это ключ. Кроме того, сдвигая надежность и безопасность, оставшиеся в SDLC, играют большую роль.
  • Скорость балансировки и надежность: Достичь этого с помощью четырехстороннего подхода, сосредоточенного на стабильности платформы, быстрых и небольших выпусках, наблюдении и владении обслуживанием.
  • Использование IAC и сосредоточение внимания на создании доверия: Использование IAC для стандартизации дает разработчикам чистое поле для строительства. Также важно быть прозрачным как во внешних, так и во внутренних коммуникациях для укрепления доверия.
  • Общение, посмертные и отслеживание элементов действия: По мере развития технических стеков, важно, чтобы инструмент помог вам максимизировать общение, обучение и профилактику.
  • Создание единого источника для SLOS: Важно соответствовать инструменту, чтобы служить центральным местом для SLIS и SLOS. СЛОС помогают командам следить за метриками. Они также стимулируют разговоры вокруг приоритетов.
  • Развивающиеся роли и бегуны: Важно укрепить роли и обязанности, чтобы каждый товарищ по команде сосредоточился на поставленной задаче. Эти задачи должны быть описаны в комплексных книгах.
  • Интерпретируйте ваши метрики и вызов предположения: Метрики сами по себе не сообщают о потребностях клиентов. Команды должны интерпретировать эти показатели, чтобы оспаривать предположения.

Масштабирование для надежности и безопасности По мере роста компаний важно масштабироваться с спросом. Салман Бхатти говорит о своем опыте с этим в Citrix. «Мы постоянно вкладываем вклад в улучшение нашей способности масштабироваться по мере роста наших клиентов. Самая большая вещь прямо сейчас — это управление масштабами и надежностью одновременно. Как вы поддерживаете растущее число клиентов, особенно в течение этого периода времени, где мы наблюдали взрывной рост в использовании наших продуктов из-за Covid-19? »

Citrix достигает этого, создавая процедуры ответа инцидента, а также синие зеленые развертывания , методика управления двумя одинаковыми производственными средами. «Когда у нас возникнут проблемы, у нас нет времени, чтобы покопаться в деталях и выяснить, что пошло не так. Нам нужно быть как можно быстрее, чтобы вернуться и работать. Возможность провалиться и иметь сине-зеленое развертывание важна. У вас нет роскоши времени. У нас никогда не было этого раньше, но теперь это увеличивается ».

Кроме того, безопасность становится все более важной инициативой по мере роста Citrix. По словам Салмана, «безопасность становится в первую очередь, когда у вас есть люди, использующие различные конечные точки для доступа к своим системам, ваших системам и системам наших клиентов».

Его команда сосредотачивается на смене безопасности в жизненном цикле разработки программного обеспечения. «Сдвиг слева теперь является частью нашей психологии развития. Когда вы строите систему, она по своей природе безопасна? Это то, о чем мы думаем сейчас больше, чем когда -либо прежде ».

Уравновешивание скорости и надежности По мере роста компаний они также должны сбалансировать скорость и надежность. Особенно в стартовой среде, ключевая предоставление ценности для клиентов в быстром темпе является ключевым. Келли Додд из Greenlight Financial хорошо знаком с этим давлением.

«Любой, кто был в стартапе, который растет, быстро понимает, что вы должны быстро доставлять функции. Иногда это на самом деле, и вам, возможно, придется вернуться и решить проблемы с надежностью позже. Может быть трудно взглянуть на то, что вы строили, и сказать: «Как сделать это надежным? Как мне начать безопасную доставку кода? »

Ее команда усердно работает над тем, чтобы ответить на эти вопросы. Это особенно главное, так как ее компания становится больше. «Все, что мы делаем как команда SRE, стремится к быстрым и надежным выпускам. За прошедший год у нас был период интенсивного роста в Greenlight Financial. Наша инженерная команда утроилась в размере. Это может дать вам представление о том, как растет наш продукт и нуждается в масштабе ».

Келли описала четыре основные инициативы, на которых ее команда сосредоточена, чтобы соответствовать этим требованиям масштабирования:

  1. Стабильность платформы: Убедитесь, что все службы работают в аналогичных средах. Если вы используете Kubernetes, все в Kubernetes. Terraform как можно больше или кодифицировать другим предпочтительным образом; Важно то, чтобы расставить приоритеты в последовательности .. Эта единообразие помогает снизить риск процесса вращения новых сред.
  2. Быстрые и маленькие выпуски: Инвестируйте в автоматическое тестирование, так как это имеет решающее значение для обеспечения непрерывной доставки. Вы не можете вручную проверить, если вы отправляете каждое изменение в Prod.
  3. Наблюдаемость: Реализуйте распределенную трассировку и другие усилия по наблюдению, затем проверьте, работает ли это, задавая новые вопросы вашей системы и проанализируя точность результатов.
  4. Владение услугами: Подключите все это к вызову. Когда что -то сломается, убедитесь, что кто -то, кто понимает продукт, может решить проблему — в идеале человека, который создал услугу.

Использование IAC и сосредоточение внимания на создании доверия Для достижения быстрых и надежных выпусков крайне важно, чтобы окружающая среда была равномерной. Ренато Насименто из Incognia также отметил это. » В Incognia мы сосредоточились на инфраструктуре как коде (IAC), чтобы убедиться, что наши среды являются равномерными. Они должны иметь такую же конфигурацию, поэтому разработчики не играют на вершине словного поля ».

Это важная внутренняя инициатива; Параллельно, Ренато и его команда в Инкогне также работают над столь же важной внешней инициативой. Команда сосредоточена на том, чтобы убедиться, что внешнее общение во время инцидентов помогает укрепить и поддерживать доверие с клиентами.

«Когда клиенты знают, что происходит, они будут чувствовать себя информированными и безопасными. Мы уверены, что общение ясно. Мы также сосредоточены на том, чтобы клиенты знали, что они могут полагаться на нас с точки зрения доступности ».

Джон Фидлер, вице -президент Engineering в безупречной, также соглашается с тем, что общение является ключевым. «Вы никогда не сможете переоценить. Внутренне важно учиться на посмерти. Внешнее, что такая взаимодействие и общение с вашими клиентами является краеугольным камнем любого бизнеса ».

Коммуникация, посмерти и отслеживание элементов действия MTTR — это обычная метрическая команда, ориентированные на сокращение. Келли отмечает, что ее команда оттачивает процессы, чтобы уменьшить MTTR. «Мы всегда быстро решаем проблемы в производстве. Работая в Fintech, это действительно важно. Вы не можете просто отмахнуться от времени простоя », — сказала она.

Беспонентная платформа играет ключевую роль в помощи Greenlight погрузиться и быстрее работать. «Самое большое изменение безупречно решается для нас, — это общение с другими частями компании. Другие заинтересованные стороны в инженерии знают, куда пойти, чтобы посмотреть, происходит ли инцидент, что происходит в инциденте, и что они могут сделать. Мы находим, что безупречный помогает нам передать ключевые части информации во время инцидента другим членам команды. Это помогает нам достичь решения намного быстрее ».

После того, как инцидент был разрешен, важно вернуть знания обратно в жизненный цикл разработки программного обеспечения. Ошибки, которые необходимо исправить, должны быть приоритетными и своевременно рассмотрены. Связанные с надежностью проблемы должны учитываться в спринте. Келли говорит, что безупречная помогает своей команде с этим.

«Посмертные и отслеживающие элементы действий в безупречных были очень полезны для нас. Мы внимательно следим за тем, заканчиваем ли мы то, что мы говорим, что мы будем. Тот факт, что безупречные связи с нашей системой билетов Jira были очень полезны для нас для отслеживания предметов действия и рассмотрения категорий инцидентов с течением времени. Это помогает нам понять ключевые проблемы, с которыми мы сталкиваемся. Вы думаете, что у вас есть интуиция о том, каковы самые легкие части вашей системы, но вам нужно посмотреть на цифры, чтобы действительно выяснить. Безумно был отличным для этого ».

Зная, какая работа, чтобы расставить приоритеты Одной из наиболее сложных проблем в разработке программного обеспечения является понимание того, когда выставлять новые функции по сравнению с надежностью укрепления. SLO необходимы для обеспечения ясности в этом процессе принятия решений. Они служат началом разговора, управляемого данными. Ренато рассказал о важности SLO для своей организации.

«SLOS отлично подходит для нашего стека, потому что речь идет не только о наличии метрик, но и общениях вокруг метрик и непрерывного тестирования и их оценки. Это говорит нам точно, где сосредоточить наше время. Иногда ваша команда представляет, что данная метрика влияет на клиента, но как только вы посмотрите на метрику и оцениваете свои цели, вы узнаете, что эта цель вообще не была важна. Мы можем освободить это время и перейти к чему -то другому. Мы следим за тем, чтобы мы не тратили время в вещи, которые не имеют значения для наших клиентов ».

Джон Фидлер также отметил, как SLO были полезны для ведения разговоров в своем прошлом опыте. «Я провел последние два года, работая с [Salesforce] Einstein в машинном обучении, пытаясь определить SLO. SLO были чрезвычайно мощным началом разговора с командами продуктов и инженеров ».

В дополнение к SLO, Renato и Team также использовали безупречную для определения приоритетов работы по соблюдению. «Мы всегда были компанией, которая любит экспериментировать. Но в последнее время мы стараемся более глубоко познакомиться с нашими инструментами и платформами, чтобы получить уровень соответствия, который нам нужен. Мы выступаем с рынками с более высокими нормативными стандартами и уровнями соответствия. И отрасль движется к месту, где соответствие более важно. Это нужно привело нас к безупречному «.

Помогая большим командам попасть на одну и ту же страницу Для более крупных организаций технологические стеки часто могут быть сильно фрагментированы, когда разрозненные команды используют не только различные инструменты, но и разные процессы. Важные данные и контекст часто распространяются по этим инструментам, что затрудняет агрегацию. В Citrix команда работает над тем, чтобы сделать технологический стек более плотно интегрированным и объединенным.

«У нас была эволюция, которая отчасти связана с приобретениями, отчасти из -за использования различных стратегий, и отчасти из -за того, что они были на ранней стадии облака. Мы хотим управлять централизацией этих технических стеков ».

Он описывает два основных преимущества стандартизации:

  1. Консолидация лицензирования: Это снижает вашу стоимость и валовую прибыль в лицензионном программном обеспечении, улучшая рентабельность инвестиций в инвестиции в инвестиции в инструменты.
  2. Нижний когнитивный труд: Члены команды могут переехать из одной области бизнеса в другой с менее когнитивным трудом. Поскольку инструмент для большинства команд является последовательным, новые члены команды могут быстрее подняться.

Бесполезный инструмент — это ключевой инструмент для ускорения усилий Citrix Tech Stack Centralization, безупречный. Citrix начал свое путешествие с безупречной, чтобы помочь стандартизировать процедуры ответа инцидента.

«[Прежде чем безупречный], инцидентный ответ был сделан по -разному в каждой из продуктов. Некоторые люди используют Slack для координации. Другие команды будут использовать GotomeEting. Мы использовали Pagerduty для пейджинг. Ранее вам приходилось охотиться за каналом, который вы ищете, и у каждой команды был другой способ сделать что -то. Когда у вас был инцидент, который попал в несколько линейков продуктов или зависимые платформы, вы будете потеряны. «

Благодаря безупречному, команда смогла упростить роли и обязанности и повысить устойчивость в системе.

«Благодаря безупречному, мы устанавливаем роли и обязанности и ввели культуру безупречных посмерти, где все приходят и понимают, что что -то пошло не так Но это никто не виноват. Нам просто нужно понять, где он потерпел неудачу и как мы можем повысить устойчивость в нужных областях, чтобы улучшить общую систему ».

Джон также отметил важность обучения, как получить всех членов команды на одной странице во время инцидента. «Раньше я учился у пожарных, как выполнять команду инцидентов. Это было похоже на новое слово, и теперь оно действительно стало стандартизацией. У нас есть удивительный продукт, построенный вокруг этого. Это действительно изменило хаос на спокойствие . «

Салман соглашается. » [Теперь с безупречным], когда люди на звонке, больше нет: «Кто что делает? Какова моя роль? Это действительно помогло нам организовать. Мы сэкономили это время, и это напрямую связано с нашим временем простоя. Таким образом, существует прямое влияние на бизнес, помимо того, что он просто организован ».

Кроме того, есть клиентская ценность в разрешении инцидентов быстрее. Салман объясняет важность этого. «Мы хотим иметь действительно небольшие перебои. Мы не хотим иметь отключения больших взрывов с 20-30 минутами или даже часами простоя. Но если у вас есть 10 или 12 отключений в одну минуту, это не имеет большого значения. Это показатель, который мы ищем измерить и водить. Бесполезный предоставляет предварительные рабочие потоки, которые помогут нам попасть туда ».

Интеграция SLO с ответом на инцидент Наши участники дискуссии также обсудили следующие шаги с безупречными, и то, что они рады видеть в будущем.

Ренато обсудил важность соединения процесса реагирования на инцидент своей команды с SLO. Он с нетерпением ждет возможности создать инцидент из SLO оповещения. Кроме того, он хотел бы, чтобы его команда начала устанавливать SLO для других ценных операционных показателей, таких как завершение инцидентов. «Когда у вас есть метрика, это хорошо. Это источник для разговора. Но как вы собираетесь использовать эту метрику, где мы хотели бы взять SLO в будущем », — сказал Ренато.

Джон соглашается с тем, что SLO являются лучшими для него и другими руководителями программного обеспечения, с которыми он говорил. «У нас были большие внутренние разговоры. Мне нравится, как концепция SLO действительно выходит на улицу и за пределами команды SRE. Вы занимаетесь продуктом и занимаетесь бизнес -руководителями, и это становится вариантом использования бизнеса ».

Создание единого источника для SLOS Салман отметил, что с фрагментированным технологическим стеком Citrix может быть трудно объединить идеи и ключевые бизнес -метрики в разных командах. Кроме того, с большим количеством доступных инструментов наблюдения и панели панели, трудно получить видимость во всех SLO для обслуживания.

«Вы можете построить мониторные панели SLI/SLO во многих разных местах. Вы можете построить их в новой реликвии, вы можете построить их в Splunk, и команды сделали это. Но нам нужна одна стеклянная панель, где все наши услуги и то, как мы делаем, измеряются одинаково. Это помогает убедиться, что цель для успеха одинаков для всех команд, так как мы не хотим держать команды в разных барах доступности. Это также дает командам автономию, чтобы выполнить свою работу вниз по течению, чтобы помочь улучшить эти SLO ».

Таким образом, безупречный инструмент SLO также является центральным для стратегии SLO Citrix. «Операционные, последовательные, последовательные и доступные в централизованном месте для поддержки нескольких технических стеков действительно ключ для нас. Мы хотим управлять этим партнерством с безупречным, чтобы иметь возможность дать отзыв о том, что мы видим, и как мы используем его изо дня в день ».

Разработка ролей и бегунов В то время как Келли и ее команда также взволнованы SLO, в настоящее время они в большей степени сосредоточены на управлении инцидентами. Она обсудила ключевые области команды, которые имеют решающее значение для операционной стратегии Greenlight. «Нам нужно работать над укреплением наших ролей инцидентов. Например, есть большой ценность в том, чтобы иметь командир, который обучен этой роли, который знает, что их роль заключается в организации и не обязательно расследовать ».

Чтобы помочь с этим, RunBooks являются важной частью стратегии, которую с нетерпением ждут Келли и ее команда. «Runbooks важны для того, чтобы сделать еще один шаг к принятию человеческого решения из процесса инцидента. Вы записали, что вам нужно сделать. Вы можете увидеть это безумно. Может быть, это связано с типом инцидента, который он есть. Может быть, даже это просто кнопка, которую вы нажимаете, которая делает какое -то исправление. Мы действительно взволнованы этим следующим шагом ».

Картирование по путешествиям пользователей Может быть трудно точно понять, когда начинается инцидент, и это может повлиять на ваши метрики MTTR. Один из способов устранить эту путаницу — отметить начало инцидента как начало воздействия на клиента. При этом, понимание того, какие показатели измерения для оценки успеха реагирования на инцидент могут быть затруднены. Салман описывает это путешествие.

«Когда мы начали делать MTTR и эти типы метрик, мы стали слишком гранулированными. Мы посмотрели на конкретный сервис, и мы начали измерять, сколько времени потребовалось, чтобы эта служба вернулась и была запущена. Но мы поняли, что это не обязательно означало, что для клиента все было запущено. Таким образом, вместо этого мы переключились на картирование критических поездок пользователей и наличия их автоматизированных. Этот клиент действительно помог. Вы должны иметь метрики или KPI, которые напрямую связаны с вашим опытом работы с клиентами. Вы всегда хотите их уточнить и поправиться в этом ».

Он также отмечает, что худший способ, чтобы ваши инциденты «начали» — это когда ваши клиенты звонят вам. Салман был в командах, которые занимались этим вызовом. «У нас были бы некоторые услуги, где мы не знали, что наши услуги не работали, пока поддержка клиентов не начала выстраиваться и сказать:« Эй, мы сталкиваемся здесь ». Это, очевидно, определяет пробел в мониторинге и предупреждении ».

Чтобы сосредоточиться на облегчении боли в клиентах, его команды в Citrix создали термин под названием «теплый вопрос. «Это проблема, когда что -то идет не так, и вы получаете оповещения. Это еще не отключение. Эти проблемы отклоняются от объектива клиентов. Они также могут направить команды к тому, чтобы быть слишком критичными к своим услугам. Эти «теплые проблемы» никогда не превращаются во все, что клиент замечает в том, что касается деградации.

Чтобы избежать этого, Салман рекомендует синхронизировать начало каждого инцидента с болью клиентов. » Как только ваши клиенты начинают испытывать боль, именно тогда вы начинаете часы, потому что именно тогда это важно для вас больше всего, это правильная метрика для измерения. Это не скрыто ничего остального ».

Интерпретировать ваши показатели и предположения о вызове Ренато и его команда используют метрики, чтобы оспорить свои предположения о своей системе. «Когда мы начали измерять MTTR, у нас не было никакого понимания того, что было наше время раньше. Когда вы измеряетесь, вы начнете видеть вещи намного яснее. Иногда у вас есть предположения, которые не соответствуют действительности. Мы думали, что наш MTTR был ниже, чем на самом деле, когда мы измерили его ».

Хотя измерение метрик, таких как MTTR, может быть очень полезным для создания базовой линии, они не идеальны. Метрики бессмысленно без людей, чтобы интерпретировать их. Ренато обсудил взгляды своей команды по этому поводу.

«Мы любим метрики. Это говорит с нашими душами. Но, по крайней мере, для меня метрик, не рассказывайте всю историю. Таким образом, есть количественные аспекты этого, но есть также человеческие аспекты и интерпретации. Метрики не говорят много, если вы их не интерпретируете ».

Келли и ее команда также используют качественный подход к показателям. По ее опыту, команды понимают проблемы без необходимости метрик, чтобы подтвердить их. Наиболее ценная идея улучшений на самом деле исходит от посмерти. «Самое реальное понимание того, что наносит ущерб нашим инцидентам, возникает на этом форуме», — сказала Келли. «MTTR, который мы измеряем, просто служит способом доказать себе, что мы улучшаем, но я не уверен, что это действительно движет этим для нас. Это больше наоборот. «

Как и Салман и Ренато, она также выступает за то, чтобы сосредоточиться на воздействии на клиента в качестве основы инцидентов. «Это измерение всегда будет настолько близко, насколько вы можете получить. Один клиент чувствует это? Или это 10% ваших клиентов? Где начинаются ваши оповещения? Сколько работы вы вкладываете в это определение? Потому что клиент испытывает, что определяет, есть ли у вас инцидент или нет, тогда, когда MTTR начинается ».

Дискуссия Салмана, Келли, Ренато и Джона о надежности, масштабировании и реагировании на инциденты имела много ценных идей и разъяснила четыре ключевых вывода:

  1. Надежность всегда функция № 1. Без этого все остальные функции делают бесполезными.
  2. Метрики важны. Предостережение заключается в том, что метрики имеют смысл только тогда, когда люди работают вместе, чтобы интерпретировать их.
  3. Инциденты начинаются и заканчиваются клиентом. MTTR определяется моментом, когда он переживает между клиентами, испытывающими проблему, и когда проблема решается для клиента.
  4. Безупречный может помочь. Бесполучный играет ключевую роль в реагировании на инцидент, посмерти и, что наиболее важно, разговоры во всех этих командах.

Если ваша команда стремится решать аналогичные проблемы, как Citrix, Greenlight Financial и Incognia в решении инцидентов быстрее, получает представление о ваших показателях и восхищение клиентов, безупречно здесь для вас. Обратитесь к нам за демо или начать свой Бесплатная пробная версия Cегодня.

Если вам понравился этот пост в блоге, проверьте эти ресурсы:

Оригинал: «https://dev.to/blameless/top-reliability-and-scaling-practices-from-experts-at-citrix-greenlight-financial-and-incognia-lp7»