- BrainTools - https://www.braintools.ru -
Казалось бы, стандартная задача: взять 20 000 объявлений, определить в них модель товара и сгруппировать по карточкам – легкий проект, который можно закрыть за пару месяцев.
Но на деле все усложняют многоязычные названия, аббревиатуры, субъективные решения аннотаторов и нюансы классификации. Как мы выстроили процесс, чтобы обеспечить точность группировки, как мы валидировали данные и какие решения помогли нам справиться с вызовами? Рассказываем в этой статье.
Крупная онлайн-платформа стремилась улучшить пользовательский опыт [1]: чтобы покупатели могли мгновенно находить нужные товары, система должна автоматически выделять модель из текста объявления и заголовка. Это позволило бы группировать объявления в карточки и упрощать поиск.
Для этого платформа обратилась к Data Light, и мы приступили к работе. На первый взгляд задача казалась простой: взять 20 000 объявлений, выделить в них модель товара и разметить данные. Но как только мы погрузились в процесс, выяснилось, что все сложнее.
Мы начали с пилотного проекта: заказчик предоставил детальные инструкции, но быстро стало ясно, что их нужно дорабатывать. Возникли три ключевые проблемы:
Многоязычность и аббревиатуры – в объявлениях встречались модели с разными названиями в зависимости от региона, а также аббревиатуры, требующие расшифровки.
Сложные заголовки – многие товары, особенно одежда, содержали в названии атрибуты, такие как цвет, длина рукава или материал. Нужно было точно определить, что относится к модели, а что – нет.
Субъективность разметки – разные аннотаторы могли по-разному интерпретировать сложные случаи. Это грозило несогласованностью данных.
Чтобы решить эти проблемы, мы внедрили несколько важных улучшений:
Мы доработали руководство по разметке, добавив примеры сложных случаев и разъяснения по аббревиатурам. Например, если в заголовке смартфона встречался цвет, его не нужно было учитывать, а если название серии, то оно оставалось.
Мы организовали обучающие сессии и тестовые задания, чтобы минимизировать субъективность. Разметчики проходили оценку, и только лучшие из них допускались к основной работе.
Для обеспечения высокой точности разметки на этом проекте мы применили несколько уровней валидации:
Ремониторинг
Мы организовали регулярную проверку ответов валидаторов, анализ их решений и соответствие обновленным инструкциям ТЗ. Это позволяло выявлять и устранять системные ошибки [2].
2. Контроль скорости
Так как процесс валидации требует дополнительных проверок, метрики скорости в отделе контроля качества помогали нам соблюдать сроки и соблюдать баланс между быстротой выполнения и точностью.
Кстати, про организацию валидации мы рассказывали в другой статье, можете посмотреть здесь [3].
За два месяца мы размечали 20 000 объявлений, стандартизировали процесс и передали данные клиенту. После обучения [4] на этих данных модель начала автоматически группировать объявления по карточкам.
Этот проект показал нам, что даже в простой на первый взгляд задаче важны нюансы. Грамотное планирование, обучение и правильно выстроенная валидация – ключевые элементы успеха.
А какие вызовы в работе с данными встречались у вас? Делитесь своим опытом!
Автор: evgeniatro
Источник [5]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/13351
URLs in this post:
[1] опыт: http://www.braintools.ru/article/6952
[2] ошибки: http://www.braintools.ru/article/4192
[3] здесь: https://habr.com/ru/companies/data_light/articles/848234/
[4] обучения: http://www.braintools.ru/article/5125
[5] Источник: https://habr.com/ru/companies/data_light/articles/892684/?utm_campaign=892684&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.