Синтетические данные в 2025: волшебная таблетка для нейросетей или темная лошадка?
Александр РыжковМентор Skillfactory, руководитель команды LightAutoML и 4х Kaggle Grandmaster
От каскадных моделей до картинок в 4к: как эволюционировали диффузионки
На дворе 2025 год. Генерацией картинок и видео в интернете больше никого не удивишь. Генеративный контент повсюду, а его качество настолько высоко, что бывает трудно отличить синтетическую картинку от реальной.
И снова о распознавании лиц с помощью Python
Технологии распознавания лиц уже активно используется для решения различных задач, от поиска преступников до применения в качестве идентификатора личности при осуществлении платежей. При этом, о различных системах распознавания лиц написано множество публикаций. В этой статье мы посмотрим, как можно использовать библиотеки OpenCV и Dlib для распознавания лиц.Мы не будем сильно углубляться в код, а вместо этого посмотрим рабочие примеры систем распознавания на основе этих библиотек.
Как мы создавали новый LLM-переводчик Яндекса
Привет, Хабр! Меня зовут Николай Карпачёв, я руковожу группой базового качества перевода в Яндексе. Недавно мы впервые разработали модель документного перевода на основе YandexGPT и, используя различные оптимизации, уже применяем её в Поиске, Умной камере, а также в нейропереводчике Яндекс Браузера. Кроме того, мы протестировали новую модель на независимом международном бенчмарке DiBiMT, где заняли первое место по качеству англо-русского перевода.В этой статье я расскажу:почему нужно делать перевод именно с контекстом, на уровне документов, а не отдельных предложений;
Автомодерация изображений: как исправлять нарушения, сохраняя количество и качество контента
Привет! Меня зовут Владимир Морозов, я старший дата-сайентист в отделе автоматической модерации Авито. Раньше мы блокировали объявления, которые нарушают правила публикации, а теперь исправляем — с помощью ML-системы. Так мы сохраняем количество контента, сокращаем стоимость модерации и улучшаем пользовательский опыт. В статье подробно расскажу обо всех этапах внедрения новой ML-механики: от идеи и исследования подходов до оптимизации нейронок и вывода в продакшен.
Порядок работы с устареванием ML моделей. Шаг 2: Создание надежных и долговечных моделей
ВведениеЕще на этапе создания модели следует проделать работу, направленную на замедление ее устаревания.Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага:Шаг 1: Понимание устареванияШаг 2: Создание надежных и долговечных моделейШаг 3: Внедрение системы мониторингаШаг 4: Переобучение и поддержание актуальности моделиВ этой части мы с вами узнаем, как создать надежную и долговечную модель, а также получить много полезной информации, которая поможет нам бороться с устареванием в будущем.
Порядок работы с устареванием ML моделей. Шаг 1: Понимание устаревания
ВведениеПод устареванием моделей понимается постепенная потеря их точности из-за изменения данных, на которых они были обучены. Если модель устарела, ее следует переобучить, чтобы восстановить ее точность и адаптировать к новым данным. Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага:Шаг 1: Понимание устареванияШаг 2: Создание надежных и долговечных моделейШаг 3: Внедрение системы мониторингаШаг 4: Переобучение и поддержание актуальности модели
Экосистема для разработки и применения Computer Vision (CV) в промышленности
Статья написана 2мя авторами: Иваном Мигалем и Юрием Кацером.На сегодняшний день компьютерное зрение (CV — computer vision) активно применяется в промышленности и уже стало привычной технологией для многих производств. Наиболее частыми примерами являются кейсы с охраной труда и промышленной безопасностью (ОТиПБ). Другими популярными кейсами, больше связанными с самим технологическим процессом, являются:ГранулометрияАнализ характеристик пены и динамики пеносъема на флотации
Boxplot, он же ящик с усами
ВведениеПредставьте, что вам нужно быстро сравнить распределения зарплат сотрудников разных отделов или оценить разброс результатов эксперимента. В таких ситуациях отличным выбором будет boxplot, он же “ящик с усами” – эффективный инструмент для выявления ключевых характеристик распределения, позволяющий быстро оценить медиану, разброс данных и обнаружить выбросы. В этой статье мы подробно разберем, что такое boxplot, и почему его называют “ящиком с усами”. Вы узнаете:Из каких элементов состоит boxplotКак интерпретировать boxplotКак использовать boxplot на практике с помощью Python, с примерами кода.
Как с помощью ML-модели мы помогли исполнителям получать больше заказов на Авито
Привет! Я Айрат Рахматуллин — senior аналитик в команде Seller experience (SX) Авито, мы отвечаем за опыт продавцов площадки. В этой статье рассказываю, как мы создали ML-модель, которая помогает исполнителям услуг повышать ликвидность объявлений, то есть получать больше заказов от клиентов.