На прошлой неделе у нас был вебинар по поводу данных. Я прошу мою коллегу — Дмитрий Кляйнер, директор услуг в Terminusdb несколько вопросов о Датопсах (в основном вопросы, которые сам и многие из вас имеют в виду).
Вы можете получить доступ ко всем нашим вебинаре, как Podcast здесь: https://podcast.terminusdb.com/ Включая это интервью с Дмитрием и предыдущим с основателями TERMINUSDB.
Что такое dataops? В чем разница между DevOps и Dataops?
Во-первых, мы должны знать, что такое дешепт. Разработчики и операции когда-то были полностью отделены — между ними была стена, и это вызвало трудности, поскольку они не могли понять, что там было и каковы последствия. Это заняло слишком долго и слишком сложно попасть в производство. Интеграция и доставка были болезненными вещами.
Тогда пришли новые изобретения, в разработчике сообщество Git и Github стали популярными. В то время как в мире OPS, облачные вычисления стали видными. И есть инфраструктура в качестве кода, поэтому два становится ближе и ближе вместе.
Таким образом, DevOps — это смена философии — вместо того, чтобы иметь разработчик и оперативный силос — у вас есть умение объединить два силоса. CI/CD разрешено с этим подходом трубопровода. Разработка к тестированию к производству включено, и разработан трубопровод, который участвует в различных этапах, а инфраструктура также может быть управляться аналогичным образом.
Больше, чем изменения программного обеспечения. Данные также меняются! Эта единственная модель трубопровода только предполагает только изменения в исходном коде, но не учитывает изменения данных.
В системе управления контентом — у вас есть живые данные, которые меняются. У вас есть рабочие процессы. Также как разработка программного обеспечения, у него есть этапы. Это то, где возникает DataOps. Как вы управляете рабочим процессом между программным обеспечением и данными, которые также меняются?
Что делать Dataops в центре внимания? Почему это важно (для бизнеса)?
Разработчики имеют git и github, а ops у jenkins и облачных провайдеров, как AWS. У нас есть много захватывающих инструментов для разработчиков программного обеспечения и управления операциями для использования.
К сожалению, не так далеко для данных людей. Все еще застрял в SQL, который там навсегда. Нет рабочих процессов, встроенных в программное обеспечение. Может делать объединение и тестирование в конвейере данных. Это базовое сейчас в Dev и Ops. Но сложно в данных. Если я хочу обновить продукт в электронной коммерции — как мне это сделать? Сделаю ли я это в среде Dev, тестовую среду, производственную среду? Нужно установить рабочий процесс, поэтому маркетинг и другие могут проверить и тестировать. Содержание готово к работе? Надо моделировать это в данные. Я могу смоделировать мой рабочий процесс с ветвями и клонами. Трудно сделать то же самое с данными. Общий обходной путь состоит в том, чтобы сделать это, толкая в самой модели данных. Это хрупко и трудно изменить.
И другая проблема в том. Когда разработчик программного обеспечения разработал новые функции, и требует изменения в структуре схемы и данных для этой функции. Если у вас есть только одна производственная база данных — как вы это делаете, если он отличается от производственной версии программного обеспечения? Теперь они достигли, используя серию практик, таких как миграции, которые являются сценариями, которые отталкиваются по трубопроводу. Затем добавьте или удалите версии, чтобы соответствовать измененной схеме. Внешний вид DB может быть в автономном режиме некоторое время, и он может стать грязным и хрупким. Это решение, но плохое! Отсутствие лучшего оснащения. С властью и клоном и клоном все лучше и проще.
Нам нужна производственная версия моей БД для тестирования. Потому что мы не хотим тестировать на производственную версию БД, мы не хотим ее сломать. Следовательно, есть необходимость скопировать все данные для разработки среды, которая может быть огромной и неэффективной задачей в наборе данных, велика. До сих пор большинство инструментов, которые мы используем, все еще позади для удовлетворения требований этих задач.
Разница в DataOps для проекта науки Data и проекта разработки программного обеспечения?
Научный проект данных имеет тенденцию иметь более сложные запросы, часто более сложные схемы и, возможно, более низкую скорость данных. Главным моментом в этом нет, является ли это проект науки о данных или проект электронной коммерции. Именно в этом проекте есть сложная схема и какова скорость содержимого и насколько сложный рабочий процесс.
Мое наблюдение такое, проект науки данных имеет более низкую скорость контента, но не всегда, и, возможно, с более сложной схемой, потому что то, что они делают, более научно точнее. Но я думаю, что многие из Dataops также могут быть применены к проектам науки о данных. И недвижимость в научной команде данных существует большая проблема в рабочем процессе, поскольку они не работают с средой DEVOPS, где они могут сделать некоторые из практик, которые я описал. Таким образом, я могу представить, как практика может быть еще больше Ad-Hoc.
Что делает успешные данные?
Также как DEVOPS, цели DataOps состоит в том, чтобы устранить бункеры и создавать межфункциональные команды и иметь полную собственность их задач и все возможности того, что им нужно. Успешные команда DataOps похожи на успешную команду DEVOPS. Им разрешено делать то, что им нужно сделать: иметь возможность писать программное обеспечение, создать инфраструктуру, а также для управления данными. Они получили правильный мандат и власть делать то, что им нужно сделать. Они уполномочены делать то, что им нужно сделать. И у них есть все возможности делать то, что им нужно сделать.
Какие роли играют DataOps в дистанционном режиме?
Мы строим новые инструменты для удаленной работы, они задействовали данные, а также программное обеспечение, включая DataOps в DevOps, станут хорошей идеей, поскольку многие работы программных инженерных работ связаны с данными. Данные обычно плохо управляются. Данные могут рассматриваться как программное обеспечение, и это потребует новых инструментов и много новых практик.
С другой стороны, команда Data Science должна научиться делать практики DEVOPS, как лечить данные в качестве кода, как лечить схему в качестве кода, так что они могут быть заполнены по трубопроводу, можно управлять, и рабочий процесс можно управлять.
Нужны ли нам конкретный человек в команде, который будет отвечать за тонатью?
Организации могут иметь сотрудников чемпионов в практике, кто-то, кто увлечен двигаться вперед. Но я верил в кроссфункциональные команды. В команде ответственность должна быть разделена. Нужна команда, которая работает вместе, чтобы узнать ряд соответствующих навыков, чтобы помочь друг другу и делиться знаниями и пониманием практики.
Любое понимание о будущем Dataops?
Есть передовые организации и другие, которые медленнее. Способность обрабатывать и совместное использование данных является ключевым конкурентным преимуществом. Если они не получают датчики и дежопты правильно, они столкнутся с последствиями на рынке. Потому что их конкуренты выйдут их. Эти компании будут дополнительно вынуждены на рынке. Другие в академических и технических условиях будут более труднее время убедить управление инвестировать в развитие навыков и посудов. Потому что он не воспринимается как решающее значение для преимущества в этих местах. Но я думаю, что это будет коротким. Выполнение лучше и лучше станет все более и важнее, когда мы идем вперед.
Вы хотите добавить что нибудь еще?
Terminusdb — именно здесь мы думаем, что мы можем иметь значение с нашим программным обеспечением. Предоставляя бесплатное и открытое программное обеспечение, которое может помочь в команде DataOps, мы предоставляем платформу и услуги, которые несут практику, которые уже распространены в командах разработки и операций по разработке программного обеспечения.
Мы рано в нашем путешествии, и мы хотим, чтобы люди наносятся рано. Мы предоставляем бесплатное программное обеспечение, и у нас очень открытое сообщество, которое рад вам помочь. Пожалуйста, получите на борту, чтобы мы могли решить реальные проблемы с нашим программным обеспечением.
Посетить https://community.terminusdb.com/ и Следуйте за нами на Twitter @terminusdb Для самых обновленных новостей и вебинарных событий.
Оригинал: «https://dev.to/terminusdb/write-up-of-our-webinar-dataops-101-4ec1»