Отловеся неисправностей пропущены автоматическими инструментами теста и мониторинга
Как программное обеспечение становится более сложным, становится сложнее тестировать все возможные режимы отказа в течение разумного времени. Мониторинг может поймать известные проблемы — хотя и с предварительно определенным прибором. Но трудно поймать новые (неизвестные) проблемы с программным обеспечением, если вам нужны предварительные приборы и ищете только известные режимы неудачи.
То, что нужно, — это способ автоматически изучать обычные шаблоны программного обеспечения и надежно обнаруживать ненормальные. Были более ранние попытки сделать это, но хорошее решение — это трудно — ему нужно работать близко к реальному времени, работать без (непрактично) обучения и не раздражает разработчиков с слишком многими ложными позитивами.
Наша команда задумчиво работала над этими проблемами в течение длительного времени и построила то, что по-настоящему работает. Мы улучшаем точность обучения схемами путем первого изучения основополагающего «словаря» всех уникальных типов событий, генерируемых вашим программным обеспечением. Наши ML ML могут сделать это с удивительно небольшими данными (всего лишь пару МБ, хотя больше данных, очевидно, помогает). Он извлекает все структуры событий в ближайшее время в режиме реального времени, включая напечатанные переменные и метрики, встроенные в журналы. Создание этого словаря структурированного события позволяет нам точно изучать обычные шаблоны каждого уникального типа событий и позволяют выполнять очень надежное обнаружение «аномалий» — когда шаблон разрыва событий. Рассмотренные факторы включают в себя: возникновение нового типа событий, изменение частоты или периодичности, тяжести и корреляции между аномалиями в пределах одного или нескольких файлов или потоков. Полностью обучение ( и продолжая адаптировать структуру событий ), наше программное обеспечение также является идеальным строительным блоком для захвата известных узоров отказов.
Как вы можете проверить его эффективность?
С точки зрения пользователя может быть трудно проверить претензии о эффективности машинного обучения и обнаружения аномалии. Положительные анекдоты от других пользователей могут не применяться к вашему приложению. Бесплатные испытания помогают, но возьмите некоторую приверженность с точки зрения планирования и усилий.
Так что вот самый простой способ, которым мы могли бы придумать, чтобы проверить наши Журнал Anomaly Detection Отказ Просто введите адрес электронной почты и загрузите до 5 (связанных) файлов журнала за раз — например, из 5 различных сервисов в вашем стеке. В течение нескольких минут вы получите отчет со списком найденных мы нашли (включая факторы, которые заставляли их быть помечены) и прохладный отпечаток пальцев, визуализируя шаблоны событий в ваших журналах. Вы также увидите примеры того, как мы автоматически анализируем структуру в ваших журналах. Сервис спроектирован с учетом безопасности — ваши данные зашифрованы в транзите и в состоянии покоя и удаляются после завершения теста.
Естественно, наши ML становятся лучше в извлечении структуры событий и характеризующие аномалии с большим количеством данных (включая данные из нескольких услуг в вашем стеке приложений). Поэтому, если вам нравится отчет о сигналах неисправностей, мы также приветствуем вас, чтобы запросить пароль и попробовать нашу полную функциональность. Это бесплатно до 500 МБ в день — без ограничений сроки. Полное обслуживание предоставляет более богатый набор возможностей, чем отчет от отпечатков пальцев, включая простые параметры для потоковой передачи журнала, предупреждения о реальном времени, богатых и настраиваемых визуализации, способность создавать собственные подписи неисправностей и намного больше.
Начать работу с отчетом о аномалии, просто нажмите здесь Отказ
Примечание: Опубликовано с разрешения автора Ajay Singh @ Zebrium
Оригинал: «https://dev.to/gdcohen/practical-log-anomaly-detection-using-machine-learning-4i8g»