Рубрики
Uncategorized

Непрерывная интеграция для ваших данных с действиями GitHub и большие ожидания

Если вы читаете это до 8-го октября, вы можете присоединиться к нашему сообществу, и рассказать, где мы будем демонстрировать … с меткой Datascience, Testing, DevOps, Github.

Если вы читаете это до 8 октября, вы можете присоединиться к нашему сообществу и рассказать, где мы впервые демонстрируем эту выдающую интеграцию. Подпишите здесь

Возможно, вы заметили, что в последние несколько недель были заняты в последние несколько недель, работающих над некоторыми действительно удивительными совместными сотрудниками с другими технологическими и данными людьми в сообществе больших ожиданий (например, Dagster Integrations И наше Здоровье Комодо и Спокойный Тематические исследования). Этот проект на некоторое время заваривал, и мы абсолютно над Луной (да!), Чтобы объявить, что мы только что опубликовали Действие GitHub для больших ожиданий ака «CI/CD для данных» Живи в Github. Это означает, что теперь вы можете иметь проверку данных в рамках ваших непрерывных рабочих процессов интеграции (CI) для защиты ваших трубопроводов данных и предотвращать попадание ошибок трубопроводов данных. Прочитайте этот пост, чтобы узнать больше о том, что мы работали, и как вы можете использовать интеграцию или просто Перейдите прямо к репо и проверьте всю информацию в Readme Действительно

Каковы действия GitHub?

Действия GitHub — это функция в Github, которая помогает вам автоматизировать рабочие процессы вашего программного обеспечения в том же месте, где вы храните код и сотрудничаете на запросах и проблемах. Вы можете написать отдельные задачи, называемые Действия и объедините их, чтобы создать пользовательский рабочий процесс. Рабочие процессы — это пользовательские автоматизированные процессы, которые вы можете настроить в своем репозитории для создания, тестирования, пакета, отпуска или развертывания любого проекта кода на GitHub. С действиями GitHub вы можете создать непрерывную интеграцию непрерывной интеграции (CI) и непрерывные возможности развертывания (CD) прямо в вашем репозитории Отказ

Как действия GitHub интегрируются с большим ожиданием?

За последние пару месяцев наша команда (в частности, GE Engineer Taylor Miller) тесно сотрудничает с Хамель Хусейн От команды GitHub, чтобы создать действие, которое позволяет вам запустить проверку данных с большим ожиданием от репозитория GitHUB при создании или обновлении PR (или на основе других событий GitHub). Вы можете найти подробные пошаговые инструкции в Документация для этого действия , но вот быстрый взгляд на то, как будет выглядеть ваш рабочий процесс:

  • Убедитесь, что ваши трубопроводы или код моделей в Github Repo.
  • Настройте развертывание больших ожиданий, подключиться к вашим данным (Файлы, SQLALCHEMY Источники, Spark DataFrames …) и Создать ожидания Чтобы утвердить то, что вы ожидаете, что ваши данные выглядят. Данные могут быть реальными данными в среде DEV/тестирования или статическими приборами данных. Настройте репозиторий GitHUB, чтобы использовать действие GE и подключить его к вашему источнику DataSource by Добавление учетных данных на Github Secrets, если это необходимо.
  • Измените свои данные по трубопроводу, повторно запустите их в среду Dev или Test.
  • Нажмите модифицированный код и создайте PR.
  • Затем он будет вызвать действие GitHub для запуска проверки данных с большим ожиданием в среде данных DEV/Test Data и публиковать результат проверки к вашему комментарию. Вы также можете настроить документы данных, которые будут поданы на платформе, такой как NetLify.

Мы можем подумать о нескольких различных приложениях для этого действия. Например, в конвейере ETL это может быть так же просто, как следствие, изменения в трубопроводе не вводят никаких проблем с качеством данных в данные ниже по потоку. Для того чтобы изолировать проблемы, вызванные изменениями трубопроводов, это те, которые вызваны изменениями данных, мы рекомендуем запустить эти тесты на статические тестовые данные. В контексте ML вы также можете проверить, что вывод вашей модели соответствует определенным ожиданиям после внесения модификаций модели.

Почему мы так взволнованы этому сотрудничеству?

Насколько нам известно, Это одна из первых интеграций тестирования и документации данных в рабочем процессе CI/CD, который поддерживается платформой, как GitHub Отказ Все мы знаем, что мы должны проверить наши трубопроводы данных, но часто проводится либо вручную инженером данных в процессе разработки, или зависит от домашней системы проверки данных. Ни один из этих решений не является особенно надежным, масштабируемым или устойчивым в долгосрочной перспективе. Точно так же, как вы запускаете интеграционные тесты на PR для кода, действие Action Git GitHub запускает тесты данных в ваших обновленных данных и улоет любые потенциальные проблемы в изменениях кода, прежде чем они попадают в производство. Любой инженер или данные ученого, внесенные изменения в трубопровод, могут проводить регулярные тесты GE локально, но тесты CI предоставит дополнительную сеть безопасности, плюс вы даже можете работать более обширными тестами на удаленной инфраструктуре.

Вы найдете подробную информацию и инструкции по поводу действия в Большие ожидания Action Repo Перейдите, чтобы проверить это и начать. И как всегда, не стесняйтесь присоединиться к GE Slack Channel. Если у вас есть какие-либо вопросы или хотите внести свой вклад в проект с открытым исходным кодом!

И, наконец, еще раз a Большое благодаря Хамелу из команды GitHub Для этого удивительного сотрудничества, это было абсолютное удовольствие, работающее с вами!

Оригинал: «https://dev.to/supercokyle/continuous-integration-for-your-data-with-github-actions-and-great-expectations-4pla»