Код устареет, принципы — останутся: подборка книг для мидлов и сеньоров в Data Science
Привет! Меня зовут Марк Паненко, и я Chief Data Science в Ozon Банке. Сегодня я хочу поговорить не о моделях или фреймворках, а о том, что останется с вами — даже когда Python 3 сменится на Python 4, а PyTorch уступит место новым инструментам. О принципах — ну и о книгах, которые научат видеть их за строками кода.Это вторая часть книжной подборки — в первой книги для джунов.Почему я перестал гнаться за хайпом
Автомодерация изображений: как исправлять нарушения, сохраняя количество и качество контента
Привет! Меня зовут Владимир Морозов, я старший дата-сайентист в отделе автоматической модерации Авито. Раньше мы блокировали объявления, которые нарушают правила публикации, а теперь исправляем — с помощью ML-системы. Так мы сохраняем количество контента, сокращаем стоимость модерации и улучшаем пользовательский опыт. В статье подробно расскажу обо всех этапах внедрения новой ML-механики: от идеи и исследования подходов до оптимизации нейронок и вывода в продакшен.
Порядок работы с устареванием ML моделей. Шаг 2: Создание надежных и долговечных моделей
ВведениеЕще на этапе создания модели следует проделать работу, направленную на замедление ее устаревания.Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага:Шаг 1: Понимание устареванияШаг 2: Создание надежных и долговечных моделейШаг 3: Внедрение системы мониторингаШаг 4: Переобучение и поддержание актуальности моделиВ этой части мы с вами узнаем, как создать надежную и долговечную модель, а также получить много полезной информации, которая поможет нам бороться с устареванием в будущем.
Порядок работы с устареванием ML моделей. Шаг 1: Понимание устаревания
ВведениеПод устареванием моделей понимается постепенная потеря их точности из-за изменения данных, на которых они были обучены. Если модель устарела, ее следует переобучить, чтобы восстановить ее точность и адаптировать к новым данным. Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага:Шаг 1: Понимание устареванияШаг 2: Создание надежных и долговечных моделейШаг 3: Внедрение системы мониторингаШаг 4: Переобучение и поддержание актуальности модели
Соревнование VN1: чему я научился у прогнозистов
С сентября по октябрь 2024 года мне выпала честь организовать VN1 Forecasting Competition
Автоматизация разведочного анализа данных (EDA) с помощью Python
Всем привет! Меня зовут Константин Некрасов, я работаю дата-сайентистом в Газпромбанке. Хочу рассказать про инструмент, который серьезно упростил мою повседневную работу с данными, и поделиться им.Если вы когда-нибудь занимались машинным обучением, то знаете — перед тем как строить модель, нужно как следует изучить свои данные. Этот этап называется EDA (Exploratory Data Analysis), или разведочный анализ данных (РАД). Он критически важен — именно здесь мы находим скрытые закономерности, выдвигаем первые гипотезы и понимаем, как лучше обработать данные для будущей модели.
От комиксов до нейросетей: 5 книг, которые помогут начинающему Data Scientist’у
Привет! Меня зовут Марк Паненко. Я Chief Data Science в Ozon Банке и большой любитель технической литературы. Этой статьёй я хочу открыть серию публикаций, в которых поделюсь лучшими, на мой взгляд, книгами, необходимыми Data Scientist-у на разных этапах его профессионального развития.Дисклеймер: эта публикация написана на основе одного из выпусков моего подкаста — если хочется получше погрузиться в тему, приятного прослушивания.Почему книги? И при чем тут комиксы?
Распили её правильно. А-В разрез генеральной совокупности
В написании этой статьи ни один ИИ не пострадал участвовал.Весь текст написан с помощью мощного естественного интеллекта автораВ настоящее время А/В тестирование приобрело всеобъемлющий и неоспоримый формат исследования своих действий в предложении товаров и услуг, да и любого исследования человеческих сообществ.И главное, что всё просто - берете исследуемое множество, выделяете часть и исследуете эту часть. В надежде, что свойства этой части такие, же как и у всего сообщества.
Прогнозируем движение беспилотного автомобиля (или как я вышел в тройку лидеров на Yandex Cup 2024)
*фотографии чемпионата взяты из телеграм-канала чемпионатаХабр, привет! Меня зовут Николай Назаров, я работаю аналитиком данных в X5 Tech. Недавно завершился чемпионат по программированию Yandex Cup ML Challenge 2024
Быстрый матчинг товаров на маркетплейсе Wildberries
Привет! Меня зовут Павел Саликов, я Senior ML-инженер в команде Дубликатов Товаров Wildberries. В этой статье расскажу про наше решение матчинга товаров на маркетплейсе и про то, как удалось сделать его быстрым.Что такое матчинг?Цель матчинга — предложить пользователю идентичные товары другого продавца, чтобы можно было купить товар дешевле либо с более быстрой доставкой. Вот такие блоки вы можете видеть на сайте или в приложении: