Ранее в этом месяце моя команда запустила CML Наш последний проект с открытым исходным кодом в пространстве MLOPS. Мы думаем, что это шаг к созданию мощных Обычные практики (как постоянная интеграция) в качестве регулярного крепления машиностроения и научных проектов данных.
итерационный/CML
♾️. CML — непрерывное машинное обучение | CI/CD для ML
Что такое CML? Непрерывный машинный обучение (CML) — это библиотека с открытым исходным кодом для реализации непрерывной интеграции и доставки (CI/CD) в проектах по изучению машин. Используйте его для автоматизации деталей вашего рабочего процесса вашего развития, включая модель обучения и оценки, сравнивая эксперименты ML по всей истории проекта и мониторинга изменяющихся наборов данных.
На каждом запросе на тягу CML помогает автоматически тренироваться и оценивать модели, затем генерирует визуальный отчет с результатами и метриками. Выше, пример отчета для Модель передачи нейронного стиля Отказ
Мы построили CML с этими принципами в уме:
- Gitflow для науки о данных. Используйте GitLab или GitHub для управления экспериментами ML, отслеживать, кто обучил ML модели или модифицированные данные и когда. Кодифицировать данные и модели с DVC Вместо того, чтобы нажать на Git Repo.
- Авто отчеты для ML экспериментов. Автоматические отчеты с метриками и сюжетами в каждом запросе на GIT. Строгие инженерные практики помогают вашей команде принимать обоснованные решения для данных.
- Нет дополнительных …
Но впереди множество проблем, а большой — грамотность .
Так много данных ученых, таких как разработчики, являются самоучками. Степени науки данных только недавно появились на сцене, что означает, что если вы обременяете горстку ученых на высшем уровне, почти наверняка не было универсальной тренировки или сертификата среди них. Более того, все еще нет широкого распространения соглашения о том, что нужно, чтобы стать ученым данных: это инженерная роль с небольшим количеством Tensorflow, посыпанная сверху? Название для статистиков, которые могут кодировать? Мы не ожидаем легкого разрешения на эти экзистенциальные вопросы в ближайшее время в ближайшее время.
Тем временем мы начинаем видео сериал, чтобы помочь ученым данных любопытно о DEVOPS (и разработчиках и инженерам любопытно о науке о данных!) начать. Благодаря практическим примерам и примерам и используйте случаи использования, мы хотим дать практикующим наукам Дата, основанные на основании изучения, использования и влияния MLOPS.
Первое видео в этой серии использует легкую и довольно популярную проблему науки о науке данных — создание модели для прогнозирования оценки качества вина — в качестве детской площадки для внедрения непрерывной интеграции.
Учебные покрытия:
- Использование Git-Flow в проекте науки о данных (создание филиала функции и запрос на тягу)
- Создание вашего первого действия GitHub для обучения и оценки модели
- Использование CML для создания визуальных отчетов в вашем запросе на тягу суммирование производительности модели
Код для проекта доступен онлайн Итак, вы можете следить!
Elleobrien/Wine.
Набор данных предсказания вина
Моделирование Caggle DataSet Красные свойства вина и оценки качества Отказ
Мы также рекомендуем проверить CML Docs Для более подробной информации, учебниками и использования случаев использования.
Если у вас есть вопросы, лучший способ связаться — это оставляя комментарий к блогу, видео или наше Расзорной канал . И нам особенно заинтересованы, чтобы услышать, какие случаи использования вы хотели бы видеть, охватываемые в будущем видео — расскажите нам о вашем проекте науки о данных и как вы можете себе представить, используя непрерывную интеграцию, и мы сможем создать видео!
Оригинал: «https://dev.to/drelleobrien/video-mlops-tutorial-intro-to-continuous-integration-for-ml-479b»