data science.

12 событий апреля, которые нельзя пропустить

Что ждёт в апрелеAI агенты на основе LLM: что нас ждет?Как избежать хаоса: управление содержанием и изменениями в IT-проектахAgile 2025: что поменялось и почему классический Scrum уже не работает?Машинный перевод seq2seq: и как обучить модель понимать языкиВнедрение автоматизации тестирования для QA LeadDocker в действии: как контейнеризация меняет аналитику данных?Знакомство с Apache Kafka

Геопространственная обработка признаков

Привет, я Александр Мещеряков, более 3-х лет работаю в компании «Синимекс» специалистом по анализу данных. Мне удалось поработать с различными ML-проектами, и больше всего меня увлекла работа с геоданными. Для многих эта тема кажется немного «магией» и я хотел бы на страницах Хабра пролить на нее немного света.

Применение роя агентов в криптовалютном телеграм боте

Исходный код, разобранный в статье, опубликован в этом репозиторииOpenAI развивает технологию роя агентов искусственного интеллекта, активная LLM модель переключается исходя из контекста поставленной задачи. Например, когда холодный контакт написал в личку телеграм, общение идёт приветливо и многословно, как только речь идет непосредственно о покупке товара, другая модель говорит минимально по делу

Все ли волки страшные: AUF или как приручить uplift?

Всем привет! Меня зовут Мельников Виктор, я работаю Junior Data Scientist в хабе Розничного Бизнеса Департамента Продвинутой Аналитики в Альфа-Банке. В этой статье я расскажу про AUF — Open Source библиотеку Альфа-Банка. Её главная задача — автоматическое решение задач uplift-моделирования.Позволяет ускорять разработку в десятки раз и убирает рутину, избавляя от привычного fit-predict. Приятным бонусом идёт полный отчёт по качеству модели, понятный как DS, так и бизнесу.Дисклеймер

За гранью A-B: Синтетический контроль для оценки офлайн и онлайн экспериментов там, где A-B-тест невозможен

Привет! Я Настя — лид A/B Платформы в Wildberries. На протяжении всего карьерного пути меня интересует тема оценки эффектов. Для этого существуют различные инструменты, в числе которых как A/B‑тестирование, так и альтернативные способы, например, различные вариации Causal Inference.В этой статье я хочу поделиться примером проведения двух квази‑тестов в Wildberries с использованием Синтетического контроля (Synthetic Control), когда не получалось провести A/B‑тест, но все‑равно хотелось оценить эффект от изменений.Почему не А/B-тестирование?

Частые ловушки в экспериментах машинного обучения — рассказываем, что следует знать

Привет, Хабр! Я Павел Куницын, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. Мы занимаемся разработкой цифровых продуктов в сфере железнодорожных грузоперевозок: интерактивной карты вагонного парка, оптимизатора ремонтов и других решений. В большинстве из них мы применяем машинное обучение.О том, как мы подходим к этому, я и мои коллеги рассказываем в нашем блоге на Хабре. Например, мы работаем

Применение ML Pricing в ритейле: хвост виляет собакой

Привет, Habr! Мы Катя и Оля, продакт-менеджеры BigData в компании «Лента», отвечаем за развитие цифровых продуктов блоков «Ассортимент» и «Ценообразование». В этой статье расскажем про внедрение ML-модели и алгоритма ценообразования товаров «хвоста», а также - трудности, с которыми столкнулись.

От скриптов к сервисам: 10 книг для профессиональной разработки в Data Science

Привет! Меня зовут Марк Паненко, и я Chief Data Science в Ozon Банке. Сегодня я хочу поговорить про книги, которые научат писать код. В современной экосистеме Data Science недостаточно просто знать алгоритмы машинного обучения и статистические методы — необходимы прочные инженерные навыки для создания масштабируемых, поддерживаемых решений.Это третья часть серии статей о главных книгах для data-специалистов. В первой части «От комиксов до нейросетей» я писал о литературе для джунов. Во второй — «Код устареет, принципы — останутся

Как мы обучили модель прогноза ранней просрочки: логистическая регрессия vs градиентный бустинг

Всем привет! На связи дата-сайентисты стрима разработки моделей для корпоративного сегмента ВТБ — Андрей Бояренков, Иван Кондраков и Денис Дурасов.Как уже писали ранее в другой статье

Игра в имитацию: используем Python для генерации синтетических данных для ML и не только

ВведениеРучной сбор данных — это всегда боль. Он съедает время, деньги и нервы, особенно в таких областях, как медицина или финансы, где затраты могут быть космическими, а юридические барьеры — непреодолимыми. По

Рейтинг@Mail.ru
Rambler's Top100