Рубрики
Uncategorized

DataOps — изготовленный термин или фактическая практика

DataOps — это новый набор принципов с акцентом на управление данными. Это адаптирует процессы DevOps. Помечено с помощью DataOps, инженера данных, Data Science, DevOps.

Данные — это новое масло — Вы, вероятно, слышали, что многие предприятия поняли, что необходимо правильное управление данными, чтобы получить ценную информацию. В настоящее время данные поступают от Различный источники прибывают в Высокий Скорость и вызывает большое количество Том (См. Документ Дуга Лейни ). Хранилище данных больше недостаточно, и только озеро данных также не может работать, ни в том случае, когда процесс отсутствует. DataOps является набором принципов, которые адаптируют DevOps-методологии и позволяют совместному управлению данными по всей организации.

DataOps получено из DevOps и адаптирует многие процессы и его принципы. Чтобы определить термин DataOps, давайте сначала уточнем DevOps. После этого мы обсуждаем процессы его и набросились, где он вписывается в культуру DevOps и какие роли могут быть применены, работая в среде DataOps. Согласно Википедия

DevOps — это набор практик, предназначенных для сокращения времени между принятием изменения в систему и изменением, введенным в нормальное производство, обеспечивая при этом высокое качество

В легких терминах он фокусируется на непрерывной интеграции и непрерывной доставке (CI/CD), а также использует автоматизацию для жизненного цикла/трубопровода сборки. Ключ заключается в том, чтобы использовать ИТ-ресурсы по требованию и применение автоматической интеграции, тестирования и развертывания кода (см. Рис. 1). Слияние разработки программного обеспечения и ИТ -операций сокращает время для развертывания, сокращения времени на рынок, сводит к минимуму дефекты и сокращает время, необходимое для решения проблем. Все крупные компании, такие как Google или Amazon, выпускают код несколько раз в день. Инжир. 1: Бесконечный жизненный цикл методологий DevOps

Большую часть времени вы находите термин DataOps Анкет Однако Заландо и Компании Также может назвать это как Datadevops Анкет Однако мы будем использовать термин DataOps В этом блоге.

Цикл шумиха Гартнера

Ниже вы видите упрощенную версию управления данными Hype Cycle Gartner в 2019 году. Как видите, термин DataOps в начале и Инновационный триггер Анкет Это означает, что реклама вызвала раннее доказательство концепции (POC), и в конечном итоге она достигнет Пик завышенных ожиданий Анкет

Инжир. 2: Гартнерский цикл управления данными в 2019 году

Определение

Из -за ранней стадии мы найдем разные определения в Интернете. Согласно Википедии:

DataOPS-это автоматизированная методология, ориентированная на процесс, используемая аналитическими группами и данными, для улучшения качества и сокращения времени цикла аналитики данных.

Тем не менее, это распространенное заблуждение, что оно только что применимо к DevOps аналитике данных. Он сообщает, что аналитика данных может достичь развития программного обеспечения с DevOps Анкет

Gartner определяет это следующим образом:

DataOPS — это совместная практика управления данными, ориентированная на улучшение коммуникации, интеграции и автоматизации потоков данных между менеджерами данных и потребителями данных по всей организации.

DataOps Обеспечивает сквозной процесс цикла, начиная с происхождения идей до создания диаграмм, графиков и моделей таким образом, что конечный пользователь мог бы использовать. Это означает, что необходимы межфункциональные усилия команды, и позволяет команде данных и пользователям работать вместе более эффективно и эффективно.

Термин DataOps Уже подразумевает, что он наиболее сильно полагается на все методологии DevOps :

  • Оптимизация кода
  • Строительство
  • Гарантия качества
  • Доставка/развертывание

Принципы и процессы

Давайте создадим лучшую картину, где классифицировать DataOps в DevOps культура Все OPS принимают те же принципы, что и DevOps, но кроме Gitops , SECOPS , или Sysops, DataOps не работает на приложение на первый взгляд, а скорее получает информацию из приложения. Это все еще не означает, что это не работает для приложения, но работает для бизнеса в целом и предоставляет информацию (см. Рис. 3).

Инжир. 3: культура DevOps — где классифицировать DataOps

Как DataOps, так и DevOps являются гибкими или худыми, когда разработка программного обеспечения также. Тем не менее, есть еще один важный компонент: Оркестровка Анкет Процессы Agile Development и высоко автоматизированные DevOps добавляют значительную ценность аналитике данных. Тем не менее, это также требует управления и организма конвейера данных (см. Рис. 4).

Рис.4: Процессы DevOps и DataOps (Оригинал: https://miro.medium.com/max/1289/1*0tdyzknzhgw_t_7e5626og.png )

Обратите внимание в процессе DataOps, перед развертыванием существует оркестровка перед тестированием и оркестровкой. Первая оркестровка принимает необработанные источники данных в качестве входных данных и дает аналитические идеи, которые создают ценность для бизнеса. Он называется «Трубопровод значения» (см. Рис. 5). Согласно источникам (см. Ссылки), мы часто говорим о трубопроводе данных, а не о жизненном цикле, как в DevOps. Это связано с фактом, тот

Рис.

Вторая оркестровка вызвана «инновационным трубопроводом» (см. Рис. 6). Инновационный конвейер стремится улучшить аналитику, внедряя новые идеи, которые дают аналитические идеи. Это петля обратной связи и новые вопросы и идеи для повышения текущей аналитической ценности.

Инжир. 6: Инновационный трубопровод (источник: поваренная книга DataOps; Кристофер Берг, Гил Бенгиат и Эран Строд)

DevOps рассматривается как бесконечная петля, тогда как DataOps нарисовано как трубопровод, пересекающий стоимость и инновационный конвейер (см. Рис. 7).

Инжир. 7: Трубопровод DataOps — комбинированная стоимость и инновационный конвейер

DataOps Роли

DevOps был создан для удовлетворения потребностей разработчиков программного обеспечения. Мы знаем, что разработчики, как правило, изучают новые языки или пробуют новые рамки или шаблоны. И это приводит к большей сложности для DevOps-Engineer, особенно во время микросервисов и облачных сервисов.

DataOps удовлетворяет потребности бизнес -пользователя (включая разработчиков) и опирается на входящие или покоящие данные приложения и его окружающую среду. Тем не менее, это можно рассматривать как собственную культуру, в том числе заинтересованные стороны (Externals или межфункциональный член команды), ученый для данных, инженеры данных и аналитики данных. Есть четыре ключевые роли, которые можно практиковать в более существенных компаниях несколькими людьми, тогда как в небольших компаниях можно назначить многочисленные роли.

Инженер данных

Инженер данных это программное обеспечение или компьютерный инженер, который закладывает основу для других членов команды для выполнения аналитики. Инженер данных перемещает данные из операционных систем (ERP, CRM, MRP,…) в озеро данных и записывает преобразования, которые заполняют схемы в хранилищах данных и маркетингах данных. Инженер данных также реализует тесты данных для качества.

Аналитик данных

Аналитик данных Принимает хранилища данных, созданные инженером данных, и выполняет аналитику огромного объема данных заинтересованным сторонам. Аналитик данных создает визуальные представления данных для передачи информации таким образом, что приводит к пониманию либо на постоянной основе, либо, отвечая на специальные вопросы. Эта роль суммирует прошлые данные (описательная аналитика), в то время как будущие прогнозы являются доменом ученых данных.

Наука данных

Ученые данных Выполните исследование и зайдите в открытые вопросы. Ученый из данных обладает опытом домена, который помогает ему или ей создать новые алгоритмы и модели, которые решают вопросы или решают проблемы.

Инженер DataOps

Инженер DataOps Применяет Agile Development, DevOps и статистические элементы управления процессом к аналитике данных. Он или она организует и автоматизирует конвейер аналитики данных, чтобы сделать его более гибким, сохраняя при этом высокий уровень качества. Инженер DataOps использует инструменты для преодоления барьеров между операциями и аналитикой данных, открывая высокий уровень производительности со всей команды.

Инструмент

Набор инструментов DevOps Также можно применять для DataOps — куча. В конце концов, нет никакой разницы. Мы организуем базы данных, такие как приложения, как мы делаем с Kubernetes и развернуть аналитическую платформу в Docker контейнер. Мы проверяем качество данных в стадирующей среде и позволяем заинтересованным сторонам рассмотреть их, прежде чем контролировать их.

Кроме того, инженер данных создает трубопровод ETL в Apache Airflow автоматизировать интеграцию входящих данных. Тем не менее, Ученый данных использует Юпитер Записные книжки, чтобы добавить невидимое понимание в Инновационный трубопровод. Напротив, Аналитик данных Создает приборную панель с использованием Таблица или Powerbi Анкет

DataOps является специализацией методологии DevOps для данных и аналитики. Это еще не реальная практика, но все еще заметна в СМИ и рассматривается как Инновационный триггер Анкет Принципы одинаковы: Высоко автоматизированный , Кросс-функциональный , Распределенные навыки людей и Общие обязанности Анкет Фокус отличается, как и для Сисопы , Gitops , или SECOPS Анкет DataOps Сосредоточится больше на автоматизации процессов данных и аналитики и тесно сотрудничает с бизнес -пользователями, такими как управление продуктами.

Однако это не просто DevOps Для данных, а скорее набор принципов, которые охватывают ценность, работающую с аналитикой и оптимизированные процессы для постоянного мониторинга, проверки и организации данных с помощью пользовательских приоритетов. Он открыт для инноваций и гибкого, потому что он должен адаптироваться к изменениям в окружающей среде. A DataOps Команда поступает с разными ролями, и они поставляются с другим набором инструментов, чтобы гармонизировать обратно и порядок между разработкой (аналитики, ученые, инженеры) и операции (производственная команда, мониторинг, заинтересованные стороны).

Цель DataOps заключается в создании аналитики в индивидуальной среде разработки, продвижения в производство, получение обратной связи от пользователей, а затем постоянно улучшается за счет дальнейших итераций. Если мы честны, данные — это то, что ведет нас, и они поставляются в различных форматах и слишком быстро. DataOps Упрощает сложность создания и операций анализа данных, оптимизируя и автоматизируя жизненный цикл разработки аналитики #dataiskey.

Оригинал: «https://dev.to/jolo/dataops-a-made-up-term-or-actual-practice-5e1k»