Как говорит Werner Vogels: «Все все время терпит неудачу».
Данные — это новое масло. Мы полагаемся на нем не только принимать решения, но и работать как бизнес в целом. Потеря данных может привести к значительным финансовым последствиям и поврежденной репутации. В этой статье вы можете найти десять действенных методов для защиты ваших самых ценных ресурсов.
1. Резервное копирование, резервная копия, резервная копия
Это не говорит, и мы все это знаем. Нам нужно иметь стратегию резервного копирования и автоматический способ регулярно принимать периодические снимки наших баз данных. Тем не менее, С сегодняшним большим количеством данных , внедрение надежного плана резервного копирования, который может быстро восстановить ваши базы данных становится сложной. Поэтому крайне важно для разработки стратегии Время восстановления Объективная и восстановительная точка Цель и внедрить решение, которое может удовлетворить плана непрерывности вашего бизнеса.
РПО против РТО
Цель точки восстановления (RPO) Описывает, сколько часов простоя мы можем терпеть. RPO 10 повлечет за собой, что ваш бизнес может позволить себе * не более 10 часов потери данных * Согласно вашему плану непрерывности бизнеса. Вы могли бы подумать о RPO с точки зрения «стабильности» вашей резервной копии, а также время восстановления. С, мы позволяем нашим данным быть 10-часовой устойчивой после восстановления, то есть, не содержащая изменений, сделанных в течение последних 10 часов.
Напротив, Цель времени восстановления (RTO) Описывает, в течение которого база данных должна быть снова. RTO 3 будет означать, что независимо от свежести резервного копирования, База данных должна быть запущена в течение 3 часов после произошедших раз простоя Отказ
2. Проверьте свой сценарий восстановления
Вероятно, худший сценарий состоит в том, что вы разработали стратегию резервного копирования, и вы регулярно принимаете снимки, но когда сбой происходит, вы замечаете, что эти Резервные копии не работают как предполагалось или что вы не можете найти их. Это имеет решающее значение для Проверьте сценарий восстановления Отказ
Netflix Piedeered «Chaos Engineering» — Дисциплина сценариев отказа тестирования на производственных системах, чтобы убедиться, что ваша инфраструктура действительно устойчива.
Узнайте больше о том, как Чтобы проверить приложения без сервеса Отказ
Не рассчитывайте на резервные копии и планы восстановления, которые никогда не были проверены. В противном случае вы рискуете заканчиваться на «пересекать пальцы и надежду на лучшую» стратегию.
Примечание. Возможно, что из-за различий в зонах времени и большим объемом данных, которые могут потребоваться перенесены на большое расстояние, Восстановление может занять больше времени, чем вы ожидаете Отказ Поэтому это может помочь принять регулярные снимки, а не только полагаться на резервные копии от конкретного провайдера.
3. Документы процессы, которые полагаются на эти данные (база)
Если ваша база данных опускается, какие процессы затронуты? Ценно, чтобы эта информация была документирована где-то, чтобы смягчить влияние неудача и возможность быстро восстановить, перезапуская соответствующие процессы и смягчение воздействия простоя.
4. Применить принцип безопасности наименьших привилегий
Мы все хотим доверять людям, но позволяет Слишком много доступа к разработчикам Без обучения их о том, как использовать эти производственные ресурсы, могут наступить в силу. Только несколько доверенных людей (доверяющиеся люди ( вероятность девов или старших инженеров ) должны иметь прямой доступ к модификации или прекращению производственных ресурсов . При строительстве любых ИТ-решений лучше всего работать в базе данных разработки и иметь разрешения только для чтения для производственных ресурсов.
Кроме того, это целесообразно Проверьте эти разрешения регулярно Отказ Если вы этого не сделали, возьмите это как ваш знак. Возможно, кто-то, кто оставил компанию, все еще имеет доступ к производственным ресурсам?
5. Назовите вашу производственную базу данных как таковой
Что, если ваша производственная база данных не называется «ресурсом« Prod », и кто-то смущает его для чего-то другого? Лучшая практика, чтобы обеспечить правильное название производственных ресурсов, чтобы уже посмотрели на него Люди знают, что это ресурс, который должен рассматриваться с большой осторожностью.
Для вас может показаться очевидным, но без надлежащих коммуникационных и воспитательных пользователей, кто-то может запустить плохо названную продуктивную базу данных для некоторых временных ресурсов ( , например, кластер детской площадки ), который можно отключить.
6. Не доверяйте любым настраиваемым вручную ресурсы
Если ваши ресурсы настроены вручную, это становится труднее воспроизвести конфигурацию в сценарии отказа Отказ Современные DevOps и Gitops культура ввели очень полезную парадигму инфраструктуры в качестве кода, которая может значительно помочь создать точную копию конкретного ресурса для сценариев развития или восстановления.
7. Не позволяйте ни одного человека управлять всей инфраструктурой
Это может быть Вызов для восстановления любой конкретной системы Если единственный человек, который знает, как настроить и использовать его недоступен, когда произойдет сбой. Знания силосы особенно опасны в таких случаях использования. Это выгодно иметь по крайней мере, один дополнительный человек Это может взять на себя эту ответственность. Часто даже разница часовой зоны между сотрудниками может значительно внести свой вклад в простоя любых простоях, и поэтому для достижения вашего RTO.
8. Обучить своих сотрудников о любом ресурсе, прежде чем дать им доступ к нему
Эта точка связана с предотвращение знаний силос Но более направленные на обучение разработчикам. В любое время мы даем кому-нибудь больше, чем просто доступ только для чтения к производству ресурсов, мы должны Обучать их на использование этого ресурса правильно И какое влияние может иметь потенциальное время простоя от одной таблицы. Как всегда, эффективное общение — наш лучший друг.
9. Используйте серверусный и контролировать свои ресурсы
Использование магазинов данных, таких как AWS RDS, отлично, но у него есть недостаток, что, в конце концов, мы все еще несем ответственность за Обеспечение того, чтобы наша база данных остается здоровой Отказ При использовании неверных хранилищ данных, таких как DynamOdb, мы можем полагаться на специалисты AWS DEVOPS для мониторинга и сохранения основных серверов здоровыми.
Если вы используете платформу наблюдеемости, такие как Мошенничество , ты можешь Быстро определите неправильные ресурсы или неудачи в вашей неверной инфраструктуре. Dashbird недавно выпустил функцию под названием Хорошо архивационные идеи Это постоянно сканирует ваши ресурсы для аномалий. Например, Это предупредит вас о любой таблице dynamodb, который не имеет Непрерывная резервная копия и точка-во время восстановления Включено Отказ Это один из самых простых способов обеспечения того, чтобы ваш магазин данных оставался здоровым и устойчивым, потому что:
- AWS заботится о Serverless Compute и хранении за обслуживанием, обеспечивая высокую доступность и толерантность неисправностей,
- Dashbird Оподаваю вас, если ваша архитектура отклоняется от стандартов, определенных в конструктивных рамках, таких как когда ваши ресурсы не настроены должным образом или не хватает резервного копирования.
На рисунке ниже вы можете увидеть, что TashBird автоматически обнаруживает, что резервное копирование не включено:
Хорошо архивационные идеи гарантируют, что ваши столы Dynamodb имеют постоянную резервную копию для быстрого восстановления точка-во времени — изображение: вежливость Мошенничество
В дополнение к информации о восстановлении, вы можете Откройте для себя многое другое о ваших безвесочных ресурсах , как продемонстрировано на изображении ниже. Например, вам будет сообщено в любое время вашего Реальные потоки данных есть пишечные дроссели . В конце концов, вам представлен счет, насколько хорошо ваша архитектура придерживается хорошо архивационной рамки.
Хорошо архивационная линза — изображение: вежливость Мошенничество
И если единственная причина, которая удерживает вас от использования DynamOdb, заключается в том, что вы все еще хотите использовать SQL, вы можете посмотреть на Partiql Отказ Этот язык запросов, разработанный AWS, позволяет вам запросить ваши таблицы dynamodb ( и многие другие хранилища данных ) непосредственно из консоли управления AWS, как показано на рисунке ниже.
Использование Dynamodb с PATIQL — — изображение автором
10. Отделите свое хранилище от вычисления, если это возможно
Эта точка связана с аналитическими базами данных. Это хорошая практика в аналитических хранителях данных Если ваш вычислений и хранение не зависят друг от друга. Представьте, что ваши данные прочно хранятся в хранилище объектов, таких как S3, и вы можете запросить его безвесочным двигателем, таким как AWS Athena или Presto. Разделение того, как хранятся ваши данные и как оно запрашивает, облегчает обеспечение устойчивости вашей аналитической инфраструктуры.
Вы можете установить автоматическую репликацию между ведрами S3, включить управление версией ( , позволяя восстановить удаленные ресурсы ), или даже предотвратить перезаписи или удалять что-либо от S3, используя Объектные замки Отказ Тогда, даже если ваше определение таблицы Athena удачна, ваши данные сохраняются и могут быть легко запрошены на определение схемы в AWS Clue.
Я большой поклонник хранения добытых данных извлеченных данных для ETL в хранилище объектов перед загрузкой его в любую базу данных. Это позволяет использовать его в качестве площади или озера данных и позволяет Больше отказоустойчивости в аналитических трубопроводах Отказ Соединения реляционных баз данных хрупкие. Представьте, что вы загружаете большое количество данных из какой-то исходной системы непосредственно в хранилище данных. Затем, незадолго до того, как задание ETL будет завершено, он не удается, потому что соединение было насильственно закрыто удаленным хостом из-за некоторых сетевых проблем. Необходимость повторения шага добычи может ввести дополнительное бремя на исходную систему или даже может быть невозможно из-за пределов запроса API.
Заключение
В этой статье мы рассмотрели Десять способов защиты вашей миссии-критический магазин данных Отказ В эти дни данные такие Критический ресурс Это время простоя может вызвать значительные финансовые и репутационные потери. Обязательно подойти к нему стратегически и Проверьте свой сценарий восстановления Отказ
Дальнейшее чтение:
Динамодб В.С. Монго Атлас
Dynamodb Непрерывная резервная копия и точка-во времени отключены d
Почему серверы без пробелов проваливаются и как проектировать устойчивые архитектуры
Оригинал: «https://dev.to/dashbird/10-ways-to-protect-your-mission-critical-database-5a92»