Рубрики
Uncategorized

Как мы можем коммодитизировать трубопроводы интеграции данных

Большинству инженеров в своей профессиональной жизни придется иметь дело с интеграцией данных. В последних нескольких Y … Tagged Data Science, базе данных, DevOps, с открытым исходным кодом.

Большинству инженеров в своей профессиональной жизни придется иметь дело с интеграцией данных. В последние несколько лет несколько компаний, таких как FiveTran и StitchData, появились для пакетных интеграций, и сегмент для событий. Но ни одна из этих компаний не решила проблему интеграции данных, которая становится все более и более сложной с растущим числом инструментов B2B, которые используют компании.

Мы не думаем, что они когда -либо смогут решить проблему интеграции данных. Вы можете подумать, что это потому, что они облачные и закрытые источники. Но по сути, мы думаем, что это сводится к тому, что они не стремятся к интеграции данных, чтобы стать товаром.

Однако, если вы спросите инженеров, большинство из них считают, что трубопроводы интеграции данных станут товаром в течение следующих 5 лет. И это наше видение в Airbyte Анкет

Но прежде чем мы расскажем вам, как мы собираемся коммодитизировать трубопроводы интеграции данных, давайте рассмотрим ограничения текущих предложений.

1. Ограниченное количество предварительно построенных разъемов без технического обслуживания

Когда вы находитесь с закрытым исходным кодом, вам необходимо создать и поддерживать все интеграционные разъемы самостоятельно. Проблема в том, что это большая работа. FiveTran потребовалось 6 лет, чтобы достичь 150 разъемов, которые они должны поддерживать каждый день. И если учесть, что в индустрии MarkTech есть 5000+ инструментов, вы понимаете, что они никогда не смогут покрыть длинный хвост самостоятельно.

Так что же происходит? С тех пор, как мы начали работать над этим проектом, мы провели интервью с 40 различными компаниями, в том числе с большим количеством клиентов FiveTran и StitchData. И подавляющее большинство из них должны были построить некоторые интеграции (возможно, с воздушным потоком), чтобы покрыть необходимые им разъемы, и которые не поддерживались этими инструментами.

В конце концов, у вас все еще есть команды по проектированию данных, которые много работают над строительством и поддержанием интеграционных трубопроводов, в то время как их опыт может быть лучшим в других местах.

2. Цены на облачные решения, индексированные на объеме

Другая важная проблема с существующими решениями заключается в том, что их цены индексируются по объему передаваемых данных. Из -за этого команды должны быть осторожны, как они используют разъемы. Супер разочаровывает, чтобы иметь решение для ваших потребностей в интеграции, но не можете использовать его так, как вам нужно, чтобы сделать свою жизнь проще из -за ценового рассмотрения. Это противоположно тому, каким должен быть товар.

3. Безопасность данных и конфиденциальность в корпоративном мире

Есть две вещи, которые вы можете быть уверены, будут расти в ближайшие десятилетия.

  • Компании будут использовать все больше и больше данных.
  • Компании должны будут учитывать все больше и больше безопасности данных и конфиденциальности, особенно для предприятий.

Многие предприятия уже прекратили использование облачных решений для 3-й стороны по соображениям безопасности. Те, кто все еще использует их, потребуют длительного процесса обеспечения безопасности и соблюдения конфиденциальности, который продлится не менее 4 месяцев. Это качает внутренние команды и не дает им двигаться вперед. Товар должен быть легко доступен, и в настоящее время это не так.

Вот мир, который мы представляем в Airbyte за 5 лет:

  • Длинный хвост разъемов должен быть в значительной степени рассмотрен.
  • Должно быть очень легко построить новый разъем.
  • Должно быть встроенное планирование, оркестровка и мониторинг для всех используемых разъемов.
  • Должен быть механизм автоматического обновления для разъемов, поэтому они бесплатны для технического обслуживания.
  • Разъемы должны быть непосредственно в вашем собственном облаке, чтобы дать компаниям полный контроль над своими данными. Разъемы могут быть расширением вашей собственной инфраструктуры данных, как некоторые сверхдержавы портативности.
  • Не должно быть никаких затрат, индексированных в объеме данных, передаваемых через разъемы (кроме ЦП и выходных).

Только тогда мы можем рассмотреть трубопроводы интеграции данных решанной проблемой и товаром.

1. Открытый источник все трубопроводы интеграции данных с лицензией MIT

Как упоминалось ранее, трубопроводы интеграции данных влекут за собой много работ по техническому обслуживанию. Каждый инструмент время от времени будет изменяться в своих схемах. Единственный способ покрыть длинный хвост разъемов — это иметь большое сообщество сопровождающих. Но если вы не работаете на компанию, чей продукт — это эти интеграционные трубопроводы, вы сохраняете только то, что используете. Вот почему единственный способ сделать это-путем открытого источника этих разъемов для большего блага через лицензию MIT.

2. Сделать строительство новой интеграции тривиальным

Если когда-либо не было намного проще создавать новую интеграцию, используя этот проект с открытым исходным кодом, по сравнению с созданием его на стороне самостоятельно, проекту будет труднее найти участников. Видение было бы ошибочным.

Вот почему мы сосредоточены на создании создания новых интеграций тривиальными. К счастью, наша команда создала конвейеры интеграции данных в течение последних 23 лет, обрабатывая более 100 ТБ данных каждый день за более чем 1000 интеграций. Таким образом, мы знаем, как построить уровень абстракции, который облегчит ситуацию.

И само собой разумеется, что Airbyte будет автоматически предоставлять планирование и оркестровку для вашей новой интеграции. Действительно, эти две вещи необходимы для большинства команд.

3. Встроенное планирование, оркестровка, мониторинг и модернизация

В дополнение к планированию и оркестровке, есть еще 2 других вещей, которые нам нужно предоставить, поэтому разъемы хорошо поддержаны во всем хранилище: мониторинг и отличный опыт обновления.

Наш мониторинг должен дать вам подробные журналы любой ошибки во время повторений данных, чтобы вы могли легко отлаживать самостоятельно или сообщить о проблеме сообществу, чтобы другие участники могли решить его для вас.

Учитывая, что для всех инструментов будет много обновлений схемы, командам нужно будет довольно часто перейти на последнюю версию репозитория, чтобы обеспечить обновленные схемы.

4. Расширение всех типов интеграций

Вначале Airbyte будет сосредоточен на репликации партийных данных от 3-й стороны инструментов и баз данных до складов. Но ничто не мешает нам расширить синхронизацию данных, используя склады в качестве источников для других направлений, в ближайшем будущем. Например, вариант использования может быть, если ваша маркетинговая команда хочет отправить данные на ваши рекламные платформы, поэтому он может лучше оптимизировать кампании. Другим вариантом использования может быть синхронизация консолидированных данных обратно в ваш CRM.

А позже мы могли бы обратиться к интеграции данных, основанной на событиях, а A LA Segret. Действительно, технология будет очень близка к разъемам, которые мы уже построим с сообществом. Это даст компаниям полный контроль над своими данными без усилий.

5. Включение других работ по разработке данных — преобразование и т. Д.

Быть открытым исходным кодом позволяет нам идти быстрее и глубже. Например, сравните Gitlab с GitHub. Гитлаб смог покрыть гораздо больше цепочки создания стоимости. Мы также имеем это в виду с Airbyte. Например, нас часто спрашивают о том, что мы предоставим с точки зрения преобразования данных.

6. Выполнение требований предприятия с соблюдением конфиденциальности и роли управление

И последнее, но не менее важное: Airbyte также нужно будет решать требования предприятий. Это включает:

  • Особенности соответствия безопасности и конфиденциальности
  • Функции мониторинга качества данных
  • Роль и управление доступом пользователя, SSO

Без этого предприятия будет труднее принять технологию с открытым исходным кодом. Это та часть, которую, по нашему мнению, мы будем продавать в исходном издании Enterprise.

Мы только начинаем сегодня на нашем видении. В следующем году мы сосредоточимся на репликации данных о приболевании на складах. Мы надеемся иметь не менее 50 разъемов к концу 2020 года, и они будут наравне с FiveTran, к Q2 2021. Но мы можем достичь этого только с помощью сообщества.

Прямо сейчас вы можете скачать наш проект и самостоятельно его. Мы построили пользовательский интерфейс, чтобы позволить кому -либо определить свои соединения и запустить консолидацию данных за считанные минуты, как и FiveTran и StitchData.

Чтобы ускорить релиз, мы создали нашу собственную версию планировщика, чтобы вы могли быстро начать с одного хоста. Мы очень скоро интегрируемся с воздушным потоком и Kubernetes, чтобы вы могли отправлять задачи синхронизации по всему кластеру.

Сегодня наш MVP поддерживает BigQuery и Stripe (мы хотели быстро запустить и получить отзывы сообщества как можно раньше). В ближайшие недели мы добавим еще много источников и пунктов назначения.

Дайте ему вращение: https://github.com/airbytehq/airbyte/ Анкет Дайте нам знать, что вы думаете, и не стесняйтесь сниматься с проектом, если вам нравится наше видение коммодитизации трубопроводов интеграции данных!

Оригинал: «https://dev.to/airbytehq/how-we-can-commoditize-data-integration-pipelines-1c9m»