- BrainTools - https://www.braintools.ru -

Группировка объявлений в карточки: как мы разметили 20 000 товаров

Группировка объявлений в карточки: как мы разметили 20 000 товаров - 1

Казалось бы, стандартная задача: взять 20 000 объявлений, определить в них модель товара и сгруппировать по карточкам – легкий проект, который можно закрыть за пару месяцев.

Но на деле все усложняют многоязычные названия, аббревиатуры, субъективные решения аннотаторов и нюансы классификации. Как мы выстроили процесс, чтобы обеспечить точность группировки, как мы валидировали данные и какие решения помогли нам справиться с вызовами? Рассказываем в этой статье.

Задача: структурировать хаос в удобные карточки

Крупная онлайн-платформа стремилась улучшить пользовательский опыт [1]: чтобы покупатели могли мгновенно находить нужные товары, система должна автоматически выделять модель из текста объявления и заголовка. Это позволило бы группировать объявления в карточки и упрощать поиск.

Для этого платформа обратилась к Data Light, и мы приступили к работе. На первый взгляд задача казалась простой: взять 20 000 объявлений, выделить в них модель товара и разметить данные. Но как только мы погрузились в процесс, выяснилось, что все сложнее.

Первые трудности: неоднозначные названия, языковые барьеры и субъективность

Мы начали с пилотного проекта: заказчик предоставил детальные инструкции, но быстро стало ясно, что их нужно дорабатывать. Возникли три ключевые проблемы:

  • Многоязычность и аббревиатуры – в объявлениях встречались модели с разными названиями в зависимости от региона, а также аббревиатуры, требующие расшифровки.

  • Сложные заголовки – многие товары, особенно одежда, содержали в названии атрибуты, такие как цвет, длина рукава или материал. Нужно было точно определить, что относится к модели, а что – нет.

  • Субъективность разметки – разные аннотаторы могли по-разному интерпретировать сложные случаи. Это грозило несогласованностью данных.

Оптимизация процесса: обучение, стандартизация и проверки

Чтобы решить эти проблемы, мы внедрили несколько важных улучшений:

1. Четкие инструкции и пилотные тесты

Мы доработали руководство по разметке, добавив примеры сложных случаев и разъяснения по аббревиатурам. Например, если в заголовке смартфона встречался цвет, его не нужно было учитывать, а если название серии, то оно оставалось.

2. Обучение аннотаторов

Мы организовали обучающие сессии и тестовые задания, чтобы минимизировать субъективность. Разметчики проходили оценку, и только лучшие из них допускались к основной работе.

Валидация данных: как ее выстроить?

Для обеспечения высокой точности разметки на этом проекте мы применили несколько уровней валидации:

  1. Ремониторинг

Мы организовали регулярную проверку ответов валидаторов, анализ их решений и соответствие обновленным инструкциям ТЗ. Это позволяло выявлять и устранять системные ошибки [2].

2. Контроль скорости

Так как процесс валидации требует дополнительных проверок, метрики скорости в отделе контроля качества помогали нам соблюдать сроки и соблюдать баланс между быстротой выполнения и точностью.

Кстати, про организацию валидации мы рассказывали в другой статье, можете посмотреть здесь [3].

Итог: точная разметка и успешный запуск модели

За два месяца мы размечали 20 000 объявлений, стандартизировали процесс и передали данные клиенту. После обучения [4] на этих данных модель начала автоматически группировать объявления по карточкам.

Этот проект показал нам, что даже в простой на первый взгляд задаче важны нюансы. Грамотное планирование, обучение и правильно выстроенная валидация – ключевые элементы успеха.

А какие вызовы в работе с данными встречались у вас? Делитесь своим опытом!

Автор: evgeniatro

Источник [5]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/13351

URLs in this post:

[1] опыт: http://www.braintools.ru/article/6952

[2] ошибки: http://www.braintools.ru/article/4192

[3] здесь: https://habr.com/ru/companies/data_light/articles/848234/

[4] обучения: http://www.braintools.ru/article/5125

[5] Источник: https://habr.com/ru/companies/data_light/articles/892684/?utm_campaign=892684&utm_source=habrahabr&utm_medium=rss

www.BrainTools.ru

Рейтинг@Mail.ru
Rambler's Top100