Эффективное ведение журнала — это важное основание для любого облачного применения или услуги. Тем не менее, просто делая печатные заявления и сбрасывать журналы в свой «Sumosplunkdog» Решение регистрации не гарантирует эффективное ведение журнала, ни способности быстро диагностировать проблемы, когда пожары разрываются.
Этот контрольный список для маленький до среднего Размер облачных приложений и услуг с фокусом на AWS. Это не для больших, Netflix Scale Services.
Контрольный список — это простой, аспирационный контрольный список, и ни в коем случае не рассматриваются все возможные проблемы. Не ожидается, что все сайты могут добиться или добиться всех предметов. Тем не менее, я надеюсь, что контрольный список может вызвать некоторые идеи для вас при разработке или улучшении вашей инфраструктуры для ведения журнала.
Я стараюсь держать список крепко и сфокусирован, но, пожалуйста, прокомментируйте, если у вас есть предмет, который вы думаете, я должен добавить в список.
Централизировать свои журналы
- [] Централизовать хранение и обработку всех журналов и метрических данных для всей вашей службы. Это значительно упрощает ваш журнал управления, анализа и корреляционные задачи.
Централизованное управление журналом — это то, где вы агрегатные журналы со всех серверов, приложений, услуг и устройств в одно местоположение. Централизованное расположение позволяет одной точке управления для доступа, контроля, хранения, мониторинга, оповещения и анализа.
Выберите правильную службу регистрации
[] Выберите сервис ведения журнала, который сильный на основах: низкая сложность, быстрый захват, безопасное хранилище, легкий журнал просмотра и мощные запросы. Красивые графики приходят последние. Многие решения для регистрации корпоративных лесозаготовки слишком сложны для необходимости и удобства использования, поставляется бедному вторым на болоту функций. Рассмотрим CloudWatch в одиночку, если в небольшом бюджете.
[] Выберите провайдер ведения журнала, который может обеспечить быстрый захват журнала и проглатывание. Многие продавцы журналов налагают несколько минут задержки до доступности данных журнала. Некоторые «возле реального времени в реальном времени просмотра в реальном времени действительно означает« ждать 5 минут ».
[] Быстрый опыт UI и UX — это необходимый фонд. Избегайте журналов зрителей, которые медленно загружают или проходят события журнала. Мощные запросы не компенсируют медленного зрителя. Рассмотрим Sensedeep AWS Cloudwatch Logs Viewer *.
[] Выберите службу ведения журнала, который может совокупные журналы для корреляции проблем во всех ваших услугах. Это важно в среде микросервисов и/или без продлений.
Форматы регистрации
[] Излучает данные журнала в машинном читаемом формате. Не выделяйте простые текстовые струны. Вместо этого используйте пары JSON или Key/Value для излучения структурированных данных (действительно, просто используйте JSON).
[] Используйте согласованные форматы ведения журнала по всем вашим услугам.
[] Используйте библиотеку ведения журнала, которая позволяет разработчикам инструментировать их код с низким усилием.
[] Определите и документируйте свою схему ведения журнала.
Что логизировать
[] Захват актуальна, уникальная информация о журнале для всех услуг или компонентов, которые участвуют в обработке запроса или могут повлиять на ваш сервис.
[] Журнал с богатым структурированным контекстом, включая: Timestamp, тип сообщения, имя приложения, пользователь/учетную запись, регион/местоположение, клиент/агент, UI-страницу и информацию о времени.
Чтобы быть «наблюдаемым», вам необходимо зарегистрировать информацию, достаточную для будущих нужд диагностики журнала. Но будьте внимательны к общему объему зарегистрированной информации. Слишком много данных могут скрыть критическую информацию.
[] Выделяют высокие поля мощности, такие как идентификаторы пользователя и идентификаторы запросов, которые можно использовать для корреляции связанных событий в контексте в контексте.
[] Используйте уникальные сообщения, которые могут быть отслеживаться в код. Рассмотрим добавление исходного файла/строки к сообщениям журнала.
[] Журнал подозрительных ошибок проверки ввода и повышенную скорость ошибки аутентификации и проверки.
[] Проверка аутентификации журнала, включая источник IP и идентификацию информации клиента.
[] Измерьте и регистрируйте истеченное время для ключевых операций (с точки зрения пользователя).
[] База данных журнала «Медленные запросы» для образца, какие запросы самые медленные для вашей системы.
Что не в системе
[] Не выделяйте такие секреты, как пароли, ключи, токены доступа, идентификаторы сеанса.
[] Не выделяют лично выявление информации или связанной со здоровьем.
[] Не выделяйте банковский счет, финансово критичность или информация о кредитной карте без анонимности.
[] Не излучайте IP-адреса или внутренние конечные точки.
[] Не излучайте строки подключения к базе данных или внутренние пути к файлам.
[] Не регистрируйте избыточную информацию — будьте наклоны.
Динамическое ведение журнала
[ ] Имейте возможность включать в себя углубленную втулку для определенных измерений, таких как: учетные записи, пользователи или запросы без передислуги кода.
[] Иметь возможность во время выполнения, чтобы включить или отключить журнал или увеличить или уменьшить многообразие сообщений на основе сервиса или модуля кода.
[] У вас есть система, в которой вы можете включить полную регистрацию отладки для конкретных запросов или пользователей без необходимости перераспределения кода.
[] Журнал Полный путь запроса на небольшой процент запросов, скажем, 1-2% всегда. Это значительно диагностирует широкие сбои системы или переходные переходы.
Метризация и мониторинг
[] Решите и документируйте свои ключевые показатели производительности и сосредоточиться на них. Рассмотрим: доступность системы, задержка запросов, пропускной способности услуг, доступную емкость, наихудшие времена отклика в случае и критические индикаторы ошибок.
[] Эмит метрики, которые описывают время отклика и опыта конечного пользователя.
[] Эмит метрики для всех ключевых сервисов, приложений и системных ошибок.
[] Эмит ключевые показатели производительности на протяжении всего службы, влияющие на действия.
[] Эмит ключевые метрики безопасности, такие как увеличение сбоев аутентификации и неудачи проверки запроса.
[] Мониторинг облачного использования ресурсов, таких как autoScale Cluster Размер и количество экземпляра пика без сервеса. Мониторинг связанных расходов на облачных сигналов с тревогами, когда ключевые месячные пределы проведения пересекаются.
[] Если регистрируя большой объем данных, рассмотрите возможность иметь отдельную группу журнала/поток для метрик, чтобы они могли быть эффективно извлечены и контролироваться.
Тревоги
[] Автоматизация мониторинга вашего сервиса с тревогами и уведомлениями.
[] Включить проактивные оповещения для аномалий обслуживания верхнего уровня.
[] Быть в состоянии определить аномалии путем извлечения тенденционных данных из метрик и журналов.
[] Уведомления о настройке, когда скорость запроса бросается внезапно, так как она может указывать на отключение.
[] Уметь автоматически предупреждать о конкретных метриках или журналах.
[ ] Где возможно вызвать автоматические корректирующие действия на основе тревоги.
[] Умейте простую, чистую приборную панель верхнего уровня, которая фокусируется на общем состоянии вашего обслуживания и ключевых показателей эффективности.
Управление
[] Понимать ваши обязательные требования соответствия для удержания журнала.
[] Управление временами удержания журналов для всех журналов во всех регионах. Поддержание журналов навсегда может быть очень дорогостоящим. AWS может разбросать журналы в регионах, которые вы думали, не были активными (Cloudfront).
[] Удерживайте журналы, так что аудит безопасности может полностью диагностировать исторические продвинутые постоянные угрозы.
Безопасность
[] Убедитесь, что данные журнала хранятся надежно и зашифрованы в транзите и в покое.
[] Зашифруйте данные журнала в покое с соответствующим шифрованием AES-256-бит не MD5 или SHA1.
[] Убедитесь, что данные журнала не могут быть подделаны или подделываемым в транзите или в покое.
[ ] Убедитесь, что вы можете быстро коррелировать события между сервисами, чтобы увидеть основную причину активных угроз.
[] Повторите: не регистрируйте секреты или токены доступа. Многие сайты были взломаны из-за плохо защищенных журналов резервных копий, которые содержат секреты.
Хранить итерацию
Больше всего, продолжайте улучшать вашу регистрационную инфраструктуру. Регистрация — это баланс между захватом достаточно данных и проглатывает слишком много. Если вы начнете с централизованного журнала и излучающих структурированных данных журнала в правильном формате, вы будете на правильном пути к достижению «наблюдательности» для вашего обслуживания и приложений.
Узнайте больше о Sensedeep
При разработке облачных служб в SENDEDEEP мы хотели использовать CloudWatch в качестве основы для нашей журнальной инфраструктуры, но нам нужен лучший, простой просмотр журнала и инструмент анализа, который поддерживал быструю плавную прокрутку и лучшие журналы и представление данных.
Таким образом, мы создали Sensedeep, решение Bogs CloudWatch AWS, которое проходит воспанно быстро, на 100% в вашем браузере. Он прозрачно загружает и хранит события журнала в кеше приложения вашего браузера для немедленного и более позднего просмотра. Он предлагает плавную прокрутку, живой хвост и мощные структурированные запросы. Он понимает структурированные данные журнала для интеллектуальной презентации и запросов.
Попробуйте бесплатно на: https://app.senselogs.io Или узнать больше на: https://www.sensedeep.com Отказ
Пожалуйста, дайте нам знать, что вы думаете, мы процветаем по обратной связи: dev@sensedeep.com Отказ
Оригинал: «https://dev.to/sensedeep/cloud-logging-checklist-228e»