Microsoft Lumos теперь является открытым исходным кодом, позволяющим отслеживать метрики веб-приложений и быстро обнаруживать аномалии путем устранения ложных срабатываний

Microsoft / Microsoft Lumos теперь является открытым исходным кодом, позволяющим отслеживать метрики веб-приложений и быстро обнаруживать аномалии путем устранения ложных срабатываний 3 минуты на чтение

Microsoft



Microsoft открыла доступ к «Lumos», мощной библиотеке Python для автоматического обнаружения и диагностики метрических регрессий в приложениях «веб-масштаба». Сообщается, что библиотека очень активна в Microsoft Teams и Skype. По сути, очень мощный и интеллектуальный «детектор аномалий» теперь имеет открытый исходный код и доступен для веб-разработчиков, чтобы выявлять и устранять регрессии в ключевых показателях производительности, при этом почти устраняя большинство ложных срабатываний.

Microsoft Lumos теперь имеет открытый исходный код. Он активно использовался в некоторых продуктах Microsoft и теперь будет доступен для всего сообщества разработчиков веб-сайтов и приложений. Сообщается, что библиотека позволила инженерам обнаруживать сотни изменений в показателях и отклонять тысячи ложных тревог, обнаруженных детекторами аномалий.



Lumos снижает количество ложных срабатываний более чем на 90 процентов, утверждает Microsoft:

Lumos - это новая методология, включающая существующие детекторы аномалий для конкретных областей. Однако Microsoft уверяет, что библиотека Python может снизить количество ложных срабатываний предупреждений более чем на 90 процентов. Другими словами, разработчики теперь могут с уверенностью решать постоянные проблемы, а не периодически возникающие проблемы, которые не оказывали долгосрочного отрицательного воздействия.



Состояние онлайн-сервисов обычно отслеживается путем отслеживания показателей ключевых показателей эффективности (KPI) с течением времени. Инженерам, проводящим «регрессионный анализ», требуется много времени и ресурсов, чтобы отсеять проблемы, которые могут указывать на серьезные проблемы. Эти проблемы могут привести к увеличению эксплуатационных расходов и даже к потере пользователей, если их не решить.



Излишне добавлять, что отслеживание основной причины каждого регресса KPI занимает много времени. Более того, команды часто проводят много времени, анализируя проблемы, но обнаруживают, что это просто аномалия. Вот где пригодится Microsoft Lumos. Библиотека Python исключает процесс определения, связано ли изменение с изменением численности населения или обновлением продукта, предоставляя список наиболее важных переменных с указанием приоритетов для объяснения изменений значения метрики.



Microsoft Lumos также служит более широкой цели понимания разницы в метрике между любыми двумя наборами данных. Интересно, что платформа включает в себя «предвзятость», и, сравнивая набор данных контроля и лечения, оставаясь независимыми от компонента временных рядов, Lumos может исследовать аномалии.

Как работает Microsoft Lumos?

Microsoft Lumos работает по принципам A / B-тестирования для сравнения пар наборов данных. Библиотека Python начинает с проверки того, является ли регресс в метрике между наборами данных статистически значимым. Затем следует проверка смещения населения и нормализация смещения для учета любых изменений населения между двумя наборами данных. Lumos решает, что этим вопросом не стоит заниматься, если нет статистически значимого регресса в метрике. Однако, если дельта в метрике статистически значима, Lumos помечает функции и ранжирует их в соответствии с их вкладом в дельту в целевой метрике.

Библиотека Lumos Python служит основным инструментом для сценарного мониторинга сотен показателей. Разработчики и группы, проводящие анализ производительности, могут отслеживать и работать над надежностью звонков, собраний и услуг телефонной сети общего пользования (PSTN) в Microsoft. Библиотека работает в Azure Databricks, сервисе компании по анализу больших данных на основе Apache Spark. Он был настроен для выполнения нескольких заданий, упорядоченных по приоритету, сложности и типу показателей. Задания выполняются асинхронно. Это означает, что если система обнаруживает аномалию, запускается рабочий процесс Lumos, а затем библиотека интеллектуально анализирует и проверяет, стоит ли искать и устранять аномалию.

Microsoft отметила, что Lumos не гарантированно улавливает все спады в сервисах. Кроме того, сервису потребуется большое количество наборов данных, чтобы предлагать надежные данные. Компания планирует включить непрерывный анализ показателей, улучшить ранжирование функций, а также внедрить кластеризацию функций. Эти шаги должны решить основную проблему мультиколлинеарности при ранжировании функций.

Теги Microsoft