Бьем автоматизацией по ручной работе с данными: как мы избавились от рутины с ML-моделями. autoEDA.. autoEDA. automl.. autoEDA. automl. mongodb.. autoEDA. automl. mongodb. REST API.. autoEDA. automl. mongodb. REST API. автоматизация работы с данными.. autoEDA. automl. mongodb. REST API. автоматизация работы с данными. аналитика данных.. autoEDA. automl. mongodb. REST API. автоматизация работы с данными. аналитика данных. обработка данных.. autoEDA. automl. mongodb. REST API. автоматизация работы с данными. аналитика данных. обработка данных. сегментация аудитории.
Бьем автоматизацией по ручной работе с данными: как мы избавились от рутины с ML-моделями - 1

Всем привет! Это DS-ы Павел Парфенов и Максим Шаланкин из команды Финтеха Big Data МТС. Мы и наши коллеги Data Scientists и Data Analysts ежедневно обрабатываем огромные массивы информации, строим модели и выделяем целевые сегменты, чтобы принимать обоснованные решения. Наши рутинные задачи — предварительный анализ данных (EDA), обучение ML-моделей и сегментация аудитории — часто отнимают кучу времени и ресурсов.

Для себя и коллег с другими компетенциями мы решили сделать инструмент, который сэкономит время на рутинных задачах. В этой публикации мы подробно расскажем, что именно оптимизировали с помощью автоматизации и на каких этапах рабочего процесса применяем нашу командную платформу. Используя этот опыт, вы сможете освободиться от монотонных действий при работе с данными и сосредоточиться на по-настоящему важных вещах.

Как автоматизация ускоряет работу и улучшает выводы

Бьем автоматизацией по ручной работе с данными: как мы избавились от рутины с ML-моделями - 2

Наша командная платформа представляет собой комплексное решение, объединяющее автоматизированные инструменты для анализа данных. Она включает в себя три основных модуля:

  • autoEDA: сервис автоматически генерирует отчеты с основными статистиками, графиками распределений и анализом аномалий, чем сокращает время на первичный EDA и упрощает интерпретацию данных. Дополнительно Weight of evidence (WoE) Report и продвинутый аналитический модуль помогают выявлять самые информативные фичи и определять ключевые показатели для сегментирования аудитории.

  • autoML: этот компонент позволяет легче получать качественные модели: с помощью методов оптимизации автоматизирует выбор алгоритмов, настройку гиперпараметров и обучение моделей. В зависимости от задачи сервис либо подбирает оптимальный скор среди существующих моделей (scoresMarket), либо строит новую на основе переданных данных.

  • autoSegment: модуль для формирования целевых сегментов. По обученной модели он автоматически выделяет группы пользователей, создавая скоринговые выборки, которые можно сразу применять для бизнес-процессов.

Раньше наша команда тратила много времени на рутинные действия, а с платформой удалось ускорить дополнительные исследования и быстрее получать готовые решения. Это улучшает аналитику, позволяя фокусироваться на разработке гипотез и стратегическом развитии продукта.

Подходы к автоматизации: autoEDA, autoML, autoSegment

Мы ставили перед собой цель автоматизировать ключевые этапы работы с данными: от EDA до построения ML-моделей и сегментации. Это нужно, чтобы специалисты, будь то Data Scientist или Data Analyst, сосредотачивались на более интересных задачах, а не на рутине.

autoEDA

Бьем автоматизацией по ручной работе с данными: как мы избавились от рутины с ML-моделями - 3

Было: аналитики проводили ручной EDA, выполняя сбор базовой статистики, визуализируя распределения, изучая данные на пропуски и аномалии. Такой подход требовал глубокого погружения, кропотливой проверки каждого показателя и мог приводить к потере важных закономерностей.

Что мы сделали: в autoEDA мы объединили два сервиса. Продвинутый аналитический сервис позволяет провести глубокое исследование фичей или показателей из множества баз данных. В этом процессе также обрабатываются данные из всех доступных источников – можно взять одну или несколько баз. Из них будут выбраны самые информативные для решения поставленной задачи.

Сервис WOE Report позволяет провести анализ выборки клиентов и выявить показатели по различным источникам, которыми чаще всего пользуются люди из нашего сегмента.

Что мы получили. AutoEDA автоматически генерирует подробные отчеты, где рассчитываются основные статистические показатели: меры центральной тенденции, разброса, распределения и взаимосвязи данных. А еще дополнительные величины, которые можно посчитать только для заданной выборки клиентов: наиболее характерные значения переменных, оптимальная точка разделения по критерию gini и другие. Благодаря встроенным алгоритмам сравнения распределений и обнаружения аномалий, пользователи получают готовые к интерпретации результаты. Так мы сокращаем время на первичный анализ и можем прорабатывать более сложные гипотезы параллельно.

autoML

Бьем автоматизацией по ручной работе с данными: как мы избавились от рутины с ML-моделями - 4

Было: построение ML-моделей традиционно включает выбор алгоритмов, сбор и обработку данных, настройку гиперпараметров, обучение и валидацию. Каждая из этих стадий требует многократных итераций и экспериментов. У многих специалистов такой процесс из-за длительного поиска эффективных решений отнимает кучу времени и сил.

Что мы сделали. В зависимости от поставленной задачи реализовали три сценария работы:

  • Поиск оптимального скора: сервис scoresMarket ищет самые эффективные модели оценки клиентов среди уже существующих. Он анализирует и ранжирует модели по способности отделять исходную выборку от всей базы клиентов. Найденный топовый скор может демонстрировать высокую точность в сегментировании, что используется в разных задачах, например, для более качественной коммуникации с клиентом.

  • Построение модели: autoML полезен, если надо быстро обучить ML-модель. Он позволяет автоматически получить объект обученной модели вместе с отчетом о качестве модели и данных.

  • Расчет жизненного цикла модели: сервис рассчитывает скорость падения качества скоров, необходимую частоту переобучения модели, оптимальный объем обучающей выборки. Это позволяет быстрее создавать качественную ML-модель.

Что мы получили: автоматизировали процесс построения ML-моделей, благодаря чему снизили порог входа в разработку и улучшили продуктовые метрики.

autoSegment

Бьем автоматизацией по ручной работе с данными: как мы избавились от рутины с ML-моделями - 5

Было: раньше Data Analyst и Data Science собирали выборки в ipynb, после чего загружали их в специальные базы данных. Эта типовая задача, которая регулярно повторялась и занимала рабочее время.

Что мы сделали:

  • Автоматический скоринг актуальных данных. После передачи обученной модели в сервис autoSegment применяет ее к текущим или историческим данным, а пользователь получает скоры по выборке клиентов.

  • Формирование целевого сегмента. На основе проведенного скоринга autoSegment создает выборку людей, представляющих целевой сегмент. Это может быть, например, аудитория для запуска маркетинговой кампании.

Что мы получили: мы автоматизировали процесс скоринга всей базы клиентов и выбор наиболее склонных к целевому действию согласно модельному скору. Этой функциональностью удобно пользоваться в исследовательских целях и для нетиповых задач.

Наша архитектура

Современные решения по анализу данных требуют не только мощных алгоритмов, но и гибкой, масштабируемой архитектуры, которая обеспечивает быструю обработку запросов и надежное хранение информации. В нашей платформе ключевые модули объединены в единую монолитную систему и интегрированы через REST API, что позволяет им эффективно взаимодействовать друг с другом, а также легко работать с внешними системами:

Бьем автоматизацией по ручной работе с данными: как мы избавились от рутины с ML-моделями - 6

Несмотря на то, что логически функциональные блоки разделены, весь код работает в рамках одного приложения. Такой подход упрощает развертывание, обеспечивает единообразный доступ к данным и ускоряет коммуникацию между модулями.

Единая точка входа через REST API

Мы предоставляем общий API-интерфейс, через который пользователи могут отправлять запросы для запуска процессов autoEDA, autoML и autoSegment. Это дает следующие преимущества:

  • Все запросы обрабатываются в рамках одного приложения, что снижает сложность настройки и интеграции с внешними системами.

  • Пользовательские запросы проходят через централизованный механизм аутентификации, а все действия фиксируются в едином логе, что облегчает мониторинг и отладку системы.

Асинхронная обработка и логирование

Для повышения производительности и обеспечения отказоустойчивости задачи внутри сервиса обрабатываются асинхронно:

  • При поступлении запроса он добавляется в очередь, а дальнейшая обработка осуществляется в фоновом режиме. Это позволяет избежать блокировки основного потока и гарантирует быстрый отклик API даже при нагрузке.

  • Весь процесс обработки запроса – от инициации до сохранения результатов – тщательно логируется. Логи содержат информацию о статусах выполнения, ошибках и временных метках, что упрощает диагностику и анализ производительности сервиса.

Хранение данных: MongoDB и облачный S3

Надежное хранение данных – ключевой аспект работы платформы. Мы используем два типа хранилищ для разных видов информации:

  • MongoDB для метаданных. Здесь сохраняются статусы задач, конфигурации, данные о пользователях и результаты промежуточных вычислений. MongoDB обеспечивает гибкость в работе с неструктурированными данными и быстрый поиск по коллекциям.

  • S3 для датасетов и моделей. Все объемные данные – исходные датасеты, обученные модели, результаты анализа – хранятся в S3. Это гарантирует высокую доступность, масштабируемость и безопасность хранения данных, что особенно важно при работе с большими объемами информации.

Чего мы добились

Давайте посмотрим пример кейса на нашей платформе. Это будет задача по определению людей, готовых воспользоваться дебетовой картой.

Сначала проводим первичную аналитику и определяем типичный портрет держателя карты. Для этого запускаем автоматический EDA данных и выделяем нужные показатели, которые характерны для держателей дебетовых карт. Так мы получим отчет, где увидим частичный ответ на вопрос, кто из клиентов нам нужен.

Затем мы используем autoML, который создаст прогнозную модель. Она предсказывает вероятность оформления карты человеком. Сервис генерирует отчет о построении модели с оценкой качества данных. Он помогает принять решение о дальнейшем использовании модели. Если нас все устраивает, можно двигаться к следующему шагу.

С помощью модели получаем из базы автоматический сегмент, кому мы будем предлагать дебетовую карту. Для этого используем всю актуальную информацию о клиенте и построенную модель внутри autoSegment.

Мы провели пилот и получили такие результаты:

  • Время от постановки гипотезы до запуска теста сократилось от двух дней до 1 часа.

  • Целевая метрика конверсии в сегменте автоматической обработки не хуже, чем от ручного процесса.

А это успех — ускорение запуска экспериментов при сохранении качества.

Как будем развиваться дальше

Бьем автоматизацией по ручной работе с данными: как мы избавились от рутины с ML-моделями - 7

На текущем этапе платформа показала хорошие результаты, но это лишь первый шаг. Мы активно работаем над расширением функциональности, чтобы охватить еще больше задач. Для этого мы проводим внутренние исследования и получаем обратную связь на кастдевах пользователей. Так мы видим ключевые потребности аудитории и расставляем приоритеты в разработке.

Ближайшие обновления:

  • Интерпретация моделей машинного обучения — внедрим инструменты для объяснения решений алгоритмов, чтобы повысить прозрачность их работы.

  • Детальный анализ выбросов в данных — добавим методы автоматического обнаружения и интерпретации аномалий, что упростит их дальнейшую обработку.

Следующим этапом станет создание AI-агента, умеющего строить аналитические пайплайны на основе текстового описания задачи. Он будет комбинировать существующие алгоритмы платформы, адаптируя их под запросы пользователей без ручного вмешательства. Например, агент сможет предложить оптимальный флоу работы — от предобработки данных до визуализации результатов. Подробнее об архитектуре этого решения, технических вызовах и первых тестах мы расскажем во второй части.

Автор: prfnv

Источник

Рейтинг@Mail.ru
Rambler's Top100