
Казалось бы, стандартная задача: взять 20 000 объявлений, определить в них модель товара и сгруппировать по карточкам – легкий проект, который можно закрыть за пару месяцев.
Но на деле все усложняют многоязычные названия, аббревиатуры, субъективные решения аннотаторов и нюансы классификации. Как мы выстроили процесс, чтобы обеспечить точность группировки, как мы валидировали данные и какие решения помогли нам справиться с вызовами? Рассказываем в этой статье.
Задача: структурировать хаос в удобные карточки
Крупная онлайн-платформа стремилась улучшить пользовательский опыт: чтобы покупатели могли мгновенно находить нужные товары, система должна автоматически выделять модель из текста объявления и заголовка. Это позволило бы группировать объявления в карточки и упрощать поиск.
Для этого платформа обратилась к Data Light, и мы приступили к работе. На первый взгляд задача казалась простой: взять 20 000 объявлений, выделить в них модель товара и разметить данные. Но как только мы погрузились в процесс, выяснилось, что все сложнее.
Первые трудности: неоднозначные названия, языковые барьеры и субъективность
Мы начали с пилотного проекта: заказчик предоставил детальные инструкции, но быстро стало ясно, что их нужно дорабатывать. Возникли три ключевые проблемы:
-
Многоязычность и аббревиатуры – в объявлениях встречались модели с разными названиями в зависимости от региона, а также аббревиатуры, требующие расшифровки.
-
Сложные заголовки – многие товары, особенно одежда, содержали в названии атрибуты, такие как цвет, длина рукава или материал. Нужно было точно определить, что относится к модели, а что – нет.
-
Субъективность разметки – разные аннотаторы могли по-разному интерпретировать сложные случаи. Это грозило несогласованностью данных.
Оптимизация процесса: обучение, стандартизация и проверки
Чтобы решить эти проблемы, мы внедрили несколько важных улучшений:
1. Четкие инструкции и пилотные тесты
Мы доработали руководство по разметке, добавив примеры сложных случаев и разъяснения по аббревиатурам. Например, если в заголовке смартфона встречался цвет, его не нужно было учитывать, а если название серии, то оно оставалось.
2. Обучение аннотаторов
Мы организовали обучающие сессии и тестовые задания, чтобы минимизировать субъективность. Разметчики проходили оценку, и только лучшие из них допускались к основной работе.
Валидация данных: как ее выстроить?
Для обеспечения высокой точности разметки на этом проекте мы применили несколько уровней валидации:
-
Ремониторинг
Мы организовали регулярную проверку ответов валидаторов, анализ их решений и соответствие обновленным инструкциям ТЗ. Это позволяло выявлять и устранять системные ошибки.
2. Контроль скорости
Так как процесс валидации требует дополнительных проверок, метрики скорости в отделе контроля качества помогали нам соблюдать сроки и соблюдать баланс между быстротой выполнения и точностью.
Кстати, про организацию валидации мы рассказывали в другой статье, можете посмотреть здесь.
Итог: точная разметка и успешный запуск модели
За два месяца мы размечали 20 000 объявлений, стандартизировали процесс и передали данные клиенту. После обучения на этих данных модель начала автоматически группировать объявления по карточкам.
Этот проект показал нам, что даже в простой на первый взгляд задаче важны нюансы. Грамотное планирование, обучение и правильно выстроенная валидация – ключевые элементы успеха.
А какие вызовы в работе с данными встречались у вас? Делитесь своим опытом!
Автор: evgeniatro