Группировка объявлений в карточки: как мы разметили 20 000 товаров. machinelearning.. machinelearning. анализ текстов.. machinelearning. анализ текстов. нейросети.. machinelearning. анализ текстов. нейросети. саммаризация.
Группировка объявлений в карточки: как мы разметили 20 000 товаров - 1

Казалось бы, стандартная задача: взять 20 000 объявлений, определить в них модель товара и сгруппировать по карточкам – легкий проект, который можно закрыть за пару месяцев.

Но на деле все усложняют многоязычные названия, аббревиатуры, субъективные решения аннотаторов и нюансы классификации. Как мы выстроили процесс, чтобы обеспечить точность группировки, как мы валидировали данные и какие решения помогли нам справиться с вызовами? Рассказываем в этой статье.

Задача: структурировать хаос в удобные карточки

Крупная онлайн-платформа стремилась улучшить пользовательский опыт: чтобы покупатели могли мгновенно находить нужные товары, система должна автоматически выделять модель из текста объявления и заголовка. Это позволило бы группировать объявления в карточки и упрощать поиск.

Для этого платформа обратилась к Data Light, и мы приступили к работе. На первый взгляд задача казалась простой: взять 20 000 объявлений, выделить в них модель товара и разметить данные. Но как только мы погрузились в процесс, выяснилось, что все сложнее.

Первые трудности: неоднозначные названия, языковые барьеры и субъективность

Мы начали с пилотного проекта: заказчик предоставил детальные инструкции, но быстро стало ясно, что их нужно дорабатывать. Возникли три ключевые проблемы:

  • Многоязычность и аббревиатуры – в объявлениях встречались модели с разными названиями в зависимости от региона, а также аббревиатуры, требующие расшифровки.

  • Сложные заголовки – многие товары, особенно одежда, содержали в названии атрибуты, такие как цвет, длина рукава или материал. Нужно было точно определить, что относится к модели, а что – нет.

  • Субъективность разметки – разные аннотаторы могли по-разному интерпретировать сложные случаи. Это грозило несогласованностью данных.

Оптимизация процесса: обучение, стандартизация и проверки

Чтобы решить эти проблемы, мы внедрили несколько важных улучшений:

1. Четкие инструкции и пилотные тесты

Мы доработали руководство по разметке, добавив примеры сложных случаев и разъяснения по аббревиатурам. Например, если в заголовке смартфона встречался цвет, его не нужно было учитывать, а если название серии, то оно оставалось.

2. Обучение аннотаторов

Мы организовали обучающие сессии и тестовые задания, чтобы минимизировать субъективность. Разметчики проходили оценку, и только лучшие из них допускались к основной работе.

Валидация данных: как ее выстроить?

Для обеспечения высокой точности разметки на этом проекте мы применили несколько уровней валидации:

  1. Ремониторинг

Мы организовали регулярную проверку ответов валидаторов, анализ их решений и соответствие обновленным инструкциям ТЗ. Это позволяло выявлять и устранять системные ошибки.

2. Контроль скорости

Так как процесс валидации требует дополнительных проверок, метрики скорости в отделе контроля качества помогали нам соблюдать сроки и соблюдать баланс между быстротой выполнения и точностью.

Кстати, про организацию валидации мы рассказывали в другой статье, можете посмотреть здесь.

Итог: точная разметка и успешный запуск модели

За два месяца мы размечали 20 000 объявлений, стандартизировали процесс и передали данные клиенту. После обучения на этих данных модель начала автоматически группировать объявления по карточкам.

Этот проект показал нам, что даже в простой на первый взгляд задаче важны нюансы. Грамотное планирование, обучение и правильно выстроенная валидация – ключевые элементы успеха.

А какие вызовы в работе с данными встречались у вас? Делитесь своим опытом!

Автор: evgeniatro

Источник

Рейтинг@Mail.ru
Rambler's Top100