Рубрики
Uncategorized

3 урока извлеченные из-за «внутреннего Heroku» для моей компании.

2 года назад моя компания достигла более 500 сотрудников. Вот когда мы заметили процесс создания и … Помечено с DevOps, архитектурой, микросервисами, облаком.

2 года назад моя компания достигла более 500 сотрудников.

Вот когда мы заметили, что процесс создания и управления системами замедлился наша производительность.

В частности, наша команда SRE была поражена запросами разработчиков, так как все (от предоставления ресурсов для предоставления доступа) требовала их помощи и подписи.

Мы хотели восстановить нашу скорость развития путем расширения возможностей команд, поэтому им не пришлось постоянно полагаться на команду SRE.

Вот когда мы решили построить инфраструктурный портал самообслуживания, чтобы помочь командам быть более автономным.

Этот портал расширит бы команды для создания и управления своими собственными ремонтными трубопроводами CI/CD, вычислительные услуги и другие ресурсы. Что-то вроде внутреннего Heroku.

Мы выпустили эту портал общей компанией 18 месяцев назад. С тех пор мы запустили более 300 услуг.

Вот 3 урока, которые я узнал.

Каждая задача SRE должна иметь билет. Это должно начинаться до того, как все автоматизировано.

В начале наша цель состояла в том, чтобы автоматизировать общие ручные задания, выполняемые командой SRE, и выполнять эти задачи самообслуживания.

Например, SRE потребуется для задач, таких как развертывание системы, или создание репо GitHub — это примеры того, что мы хотели автоматизировать.

Но найти эти общие задачи (за пределы болезненно очевидных) оказались трудными из-за невидимой природы программного обеспечения. Я размолкнул об этом в Еще один пост Отказ

Как вы можете выяснить, что автоматизировать, если вы не знаете, какие задачи выполняют команду SRE, и как часто они их выполняют?

И нет, вы не можете положиться на анекдотальные доказательства или памяти. Существует что-то ощутимое, которое можно использовать для создания объективных решений, ориентированных на данные.

Вот почему важно иметь процесс для обработки входящих запросов SRE. Каждая задача, независимо от того, насколько малым необходимо записать (мы использовали билеты в Джиру), чтобы их можно было подсчитано и рассмотрено позже.

Это означает, что разработчики больше не могут просить своего любимого SRE для небольшой пользы без письменного запроса или «билета». То же самое относится к менеджерам продукта с насущным бизнес-запросом.

Эти билеты SRE имеют решающее значение, потому что они показывают, как выглядит эффективный портал инфраструктуры для вашей организации.

Недостаточно просто для автоматизации наиболее распространенных ручных задач, которые в настоящее время существуют.

У вас должно быть мнение о том, что является наиболее эффективной архитектурой для вашего бизнеса.

Индивидуальные команды (обычно) не обращают внимания на выборы дизайна остальной части компании.

Однако для того, чтобы программная компания должна быть эффективно, технологическая сложность и широта должны контролироваться. Это помогает предоставить 2 основных преимущества:

  • возможность разрабатывать и использовать существующие, опытные и инструменты в компании
  • Общая среда развития, которая улучшает гибкость ресурсов разработчиков среди команд

Должно быть мнение о том, как выглядит идеальная архитектура для вашей компании и бизнеса — не только для подмножества команд развития.

Для нас мы решили, что микросервисы, ориентированные на события (EDM), и что повлияло на инструменты, которую мы преследули.

Например, когда мы заметили, что многие команды нуждались в государственном хранилище для своих услуг, мы автоматизировали предоставление тематики Кафки перед рассмотрением баз данных.

Это не значит, что EDM — лучший выбор дизайна для вашей компании (это зависит от вашего бизнеса). Но то, что такое выбор, он должен направлять ваше видение для того, что вы делаете самообслуживание. Это сильно повлияет на то, как ваши команды строят и строят новые системы

Так что не просто автоматизировать, как строятся системы, но баланс, удовлетворяющий существующие потребности с видением того, что должно быть идеалом.

Как только команды имеют возможность свободно строить и создавать, они будут.

Вероятно, что если ваш портал самообслуживания успешен, больше людей начнут использовать его для предоставления ресурсов (и чаще).

Это означает, что ресурсы (такие как репо, Ci/CD трубопроводы, услуги и т. Д.) будут создаваться чаще. И Чем больше «вещей, чтобы отслеживать», тем важнее у него будет стратегия организовать все.

Для вашей компании работает гладко, Все Должен быть в состоянии ответить (или найти ответ) на эти вопросы:

  • Какие ресурсы (или услуги) доступны?
  • О каких ресурсах (или услугах) зависит эта услуга?
  • К какому обслуживанию принадлежит этот ресурс?

Наличие стратегии именования или метки имеет жизненно важное значение для долгосрочной гигиены вашей инфраструктуры.

В нашем опыте мы обнаружили, что имея «реестр» для отслеживания ресурсов было полезно, но это может не понадобиться для всех.

Но все это средство для достижения цели. Самый важный вопрос, имеющий стратегию организации, служит для ответа:

Кто отвечает за этот ресурс (или услугу)?

Ответ на это всегда должен быть одним человеком (даже для общего ресурса) — обычно руководитель команды.

Подотчетность жизненно важно в среде самообслуживания. Это не значит, что кто-то будет «наказан», если что-то пойдет не так (общий неправильный интерпретация), но это означает, что мы должны знать:

  • Кто управляет изменениями на этот ресурс?
  • Кто должен быть уведомлен, если этот ресурс не отвечает?
  • Кто контролирует стоимость этого ресурса?

Возможность ответить на эти вопросы, помогите разрешить самообслуживание инфраструктуры, чтобы оставаться таким же эффективным на День — 2 Как день-1, и избегайте превращения вашей инфраструктуры в спагетти.

Наша портал самообслуживания распространена наши ресурсы, и для любого человека или команды было бы невозможно отслеживать все. Таким образом, как мы распределили многие пошлины в команды, мы решили сделать то же самое с тем, как мы организовали себя, включая аудита и собственность во всей нашей автоматизации.

Оригинал: «https://dev.to/markhopson/3-lessons-learned-from-making-an-internal-heroku-for-my-company-49hd»