Для тех из нас, которые должны управлять большим набором данных по массовым организациям с разнообразными потребностями, управление вашим собственным набором серверов и приложений оказались за пределами сложных.
Таким образом, спешка до облака.
Google и Amazon — некоторые из крупнейших поставщиков для облачных услуг! Многие компании полагаются на свои различные продукты и часто смешивают и соответствуют различным продуктам, которые они предлагают.
В этой статье мы хотели обсудить концепцию складирования облачных данных.
Специально со ссылкой на Redshift и BigQuery — — — построенный Amazon и Google соответственно, и обсудить, какое приложение является лучшим для вашей организации. Так что давайте начнем:
Прежде чем у нас слишком далеко в специфику, что такое хранилище данных?
Проще говоря, хранилище данных — это жизненная кровь любой бизнес-аналитики или аналитической команды. Это позволяет этим командам хранить и анализировать полезные данные от доменов по всей организации (например, финансы, операции и HR).
Это также часто делает данные проще для взаимодействия с из-за изменений дизайна, сделанных из исходной системы исходной сети и хранилища данных.
В целом, главная цель хранилища данных заключается в том, чтобы преодолеть разрыв между комплексными бизнес-процессами и аналитиками.
До недавнего времени до недавнего времени склады данных были разработаны на месте. Это означает, что системы были ограничены сервером, который они жили, и часто приходилось масштабировать вертикально.
Это может занять много времени и дополнительных часов.
Сейчас с облаком многие поставщики хранилищ данных позволяют вам в качестве компании в масштабе масштабирования вверх и вниз по мере необходимости.
Кроме того, многие из этих облачных поставщиков разработали системы данных, которые являются складами данных. Это сделало их еще быстрее и более эффективными по сравнению со стандартными реляционными базами данных.
Существует много вариантов для того, как команда может подходить с использованием складов облачных данных. Сегодня мы собираемся сосредоточиться на бирже и Redshift.
В основном, Amazon против Google.
Так что давайте посмотрим.
BigQuery — это неверный склад данных на уровне предприятия, построенный Google, используя BigTable.
Это приложение может выполнять сложные запросы за считанные секунды на то, что раньше было неуправляемое количество данных.
BigQuery поддерживает формат SQL и предлагает доступность через инструменты командной строки, а также интерфейс веб-пользователей. Это масштабируемый сервис, который позволяет пользователю сосредоточиться на анализе вместо обработки инфраструктуры.
Лично мне действительно нравится онлайн-интерфейс веб-интерфейса, который имеет BigQuery. Не нужно настроить какие-либо разъемы или загрузить любые сторонние инструменты для взаимодействия с данными.
Redshift — это ориентированная на столбец облачных данных складской системы данных, построенная Amazon. Некоторые говорят, что это было так, чтобы они могли перестать полагаться на Oracle после того, как генеральный директор Oracle хвастался о Amazon, нуждающимся в Oracle, чтобы остаться в бизнесе.
Кластер Redshift содержит несколько машин, которые хранят долю данных.
Эти машины работают параллельно, сохраняя данные, чтобы мы могли работать на нем эффективно. Здесь Redshift имеет некоторые вычислительные узлы, которые управляются узлами лидера для управления распределением данных и выполнением запросов между вычислительными узлами. Существуют также другие дизайнерские преимущества, такие как массивная параллельная обработка (MPP).
В целом, как боевик, так и редшифт были разработаны с учетом аналитики. Таким образом, концепции, такие как MPP и столбчатые хранилища, были оба дизайнерские решения, сделанные, чтобы убедиться, что работающие аналитические запросы были эффективны.
Ценообразование
Хотя оба обладают по требованию, так и в категории категории «Функция», BigQuery и Redshift значительно различаются в условиях ценообразования. Биологические заряды для хранения, запросов и потоковых вставок, в то время как Redshift заряды для каждого узла в кластерах.
Redshift стоит около 306 долларов за терабайт /месяц для хранения и предлагает неограниченную обработку рядом с большими расходами, просто 20 долларов за терабайт/месяц для хранения и 5 долларов за обработку Terabyte Отказ
Безопасность
Redshift использует Amazon IAM для идентичности, в то время как BigQuery использует Google Cloud IAM. BigQuery поставляется с вариантом шифрования данных по умолчанию, в случае бирже, вы должны вручную включить опцию.
Из перспективы ролей оба IAMS несколько похожи, но вы можете прочитать больше о различиях здесь Отказ
Простота
Биологические рефераты детали базовой базы данных, конфигураций и аппаратного обеспечения. Redshift требует, чтобы вы имели очень глубокое понимание Redshift. Это включает в себя концепции, такие как клавиши распределения и MPP.
Загрузка данных
Amazon Redshifts позволяет загружать данные в него сразу в любом месте. Тем не менее, в основном это, естественно, соединяется с Amazon S3, а подобные вещи можно сказать о Google BigQuery и Google Cloud Storage.
Обе системы поддерживают вставку данных в потоковой моде и оба поддерживают сериализацию данных в форматах, такими как JSON, CSV и AVRO.
Кроме того, есть много других методов, которые вы можете использовать для загрузки этих систем. Например, как воздушный поток, так и Luigi можно использовать для загрузки, но и AWS клей.
Многие традиционные хранилища данных и профессионалов BI могут использоваться для объединения, обновления и вставки набора записей DMLS (Data Manipualtion Lanague), которые часто встречаются в Oracle, SQL Server, MySQL и в значительной степени любой другой стандартной базы данных.
Однако как Redshift и BiGQuery не обязательно поддерживают все эти положения таким же образом.
Например, для слияния Redshift имеет выделение, но это не совсем прямая версия Merge.
Цитировать AWS:
Amazon Redshift не поддерживает одно оператор слияния (обновление или вставить, также известный как UPSERT) для вставки и обновления данных из одного источника данных.
Однако вы можете эффективно выполнить операцию слияния. Для этого загрузите данные в заметную таблицу, а затем присоедините к заметку с целевой таблицей для оператора обновления и оператора INSERT. Для получения инструкций см. Обновление и вставка новых данных Отказ
Так что это действительно работа вокруг. Правда, это все еще делает меня немного грустно.
BigQuery На самом деле поддерживает пункт слияния.
На самом деле, до того, как около 2017 года он был действительно разработан в качестве системы только вспомогательной системы. Но бигредность с тех пор Полученное обновление, вставьте и слияние пунктов.
Это обеспечивает гораздо более прямой подход для инженеров, разрабатывающих свои данные складов на вершине биржевых изделий.
Продолжая идею, что BigQuery просто легче использовать.
Заключение
Как Redshift и BigQuery являются отличными хранилищами данных, которые помогают предприятиям при получении полезных представлений. Перед тем, как сделать ваш выбор, важно учитывать столовую длину столбцов, бизнес-требования и технические таланты.
Redshift предлагает гораздо больше гибкости в том, как вы управляете своими ресурсами. Однако для эксплуатации кластера вам нужно понимать много нюансов за Redshift. Это может заставить ваших инженеров провести много времени, тонкую настройку вашего хранилища данных.
С другой стороны, Biagequery не ожидает, что вы будете управлять ресурсами, и, следовательно, он резонзирует всю базовую конфигурацию, аппаратное и данные баз данных. Вследствие его SQL-подобной инфраструктуре это очень удобно и легко учиться.
Хотя есть некоторые различия, оба приходят со своими сильными точками. Так что пройдите по вышеуказанной статье, а затем сравните с требованиями вашей организации, чтобы сделать лучший выбор.
5 Отличные библиотеки для управления большими данными с Python
Присоединение к данным в Dynamodb и S3 для Live Ad HOC анализ
142 Ресурсы для освоения кодирования интервью
Учебные данные науки: наше 25 лучших курсов данных
Динамически объемная вставка данных CSV в SQL Server
4 должны иметь навыки для ученых данных
Что такое ученый данных
Оригинал: «https://dev.to/seattledataguy/google-cloud-bigquery-vs-aws-redshift-18bj»