- BrainTools - https://www.braintools.ru -
Оценка моделей нейронных сетей играет ключевую роль в выборе наилучшего алгоритма для конкретной задачи. Выбор метрики должен соответствовать целям, поскольку очевидного показателя «Точность» (accuracy) обычно недостаточно. Критерии помогают определить эффективность и корректно сравнить различные подходы.
Меня зовут Александр Агеев, я ML‑разработчик в SL Soft AI. В этой статье я расскажу про три задачи и методы их оценки:
классификация — предсказание дискретных классов,
обнаружение объектов (детекция) — локализация и классификация объектов на изображении,
сегментация — разметка каждого пикселя изображения в соответствии с принадлежностью к определенному классу.
Внимание [1]: материал предназначен для первого погружения в тему и не учитывает многовариативность подходов в узкоспециализированных задачах, где метрики могут изменяться и усложняться.
Бинарная классификация предполагает разделение объектов на два класса: положительный и отрицательный (кошка/собака, больной/здоровый…). Метрики основаны на возможных исходах предсказаний:
True Positive (TP) — истинноположительный класс,
True Negative (TN) — истинноотрицательный класс,
False Positive (FP) — ложноположительный класс,
False Negative (FN) — ложноотрицательный класс.
На основе этих результатов строится матрица ошибок (confusion matrix), которая позволяет вычислить основные метрики качества модели:
P+N |
Положительный (предсказано) |
Отрицательный (предсказано) |
Положительный (факт) |
TP |
FP |
Отрицательный (факт) |
FN |
TN |
Одна из самых простых и популярных метрик. Она показывает долю правильно классифицированных объектов от общего числа примеров:
Однако эта метрика походит только в идеальных случаях, когда классы сбалансированы, то есть имеют одинаковый для нас вес — кошки/собаки. В задачах, где ошибка [2] на определение класса критична — болен/здоров — метрика не годится.
Измеряет, какая доля предсказанных моделью положительных случаев действительно является положительной:
Эта метрика важна в задачах, где критично минимизировать количество ложных срабатываний (FP). Например, при выявлении мошеннических транзакций.
Показывает, какую долю реальных положительных случаев модель смогла правильно предсказать:
Данная метрика важна в ситуациях, когда важно не пропустить положительный случай, например, при диагностике смертельных заболеваний.
Гармоническое среднее Precision и Recall:
Эта метрика полезна, если требуется найти баланс между Precision и Recall.
ROC‑кривая (Receiver Operating Characteristic) показывает зависимость между True Positive Rate (Recall) и False Positive Rate:
AUC (Area Under Curve) — площадь под ROC‑кривой. Чем больше AUC, тем лучше модель различает классы. AUC = 0.5 соответствует случайному угадыванию, а AUC = 1 означает идеальную классификацию.
Классная статья на Хабре [3] про эти метрики.
Если классов больше двух, метрики можно адаптировать следующим образом:
Micro‑averaging — суммирование TP, FP и FN по всем классам перед расчетом Precision, Recall и F1-score.
Macro‑averaging — вычисление Precision, Recall и F1-score отдельно для каждого класса и усреднение полученных значений.
Weighted‑averaging — аналог macro‑averaging, но с учетом частоты встречаемости каждого класса.
True Positive (TP) — истинноположительные пиксели.
True Negative (TN) — истинноотрицательные пиксели.
False Positive (FP) — ложноположительные пиксели.
False Negative (FN) — ложноотрицательные пиксели.
Попиксельная точность отражает долю правильно классифицированных пикселей изображения:
Как в случае с бинарной классификацией, при сильной несбалансированности классов метрика может дать искаженную картину эффективности модели, поэтому применяется с осторожностью.
Для устранения недостатков попиксельной точности используется средняя попиксельная точность по классам. Она вычисляется отдельно для каждого класса и затем усредняется по всем классам:
где n — число классов.
IoU оценивает степень пересечения между предсказанной и реальной областями сегментации:
Среднее значение IoU (Mean IoU) часто используется для оценки модели на полном наборе данных и может рассчитываться как взвешенное среднее по классам, учитывая частоту каждого класса.
Индекс Дайса похож на IoU, но отличается небольшим изменением формулы, акцентируя внимание на пересечении:
Показывает, насколько хорошо предсказанная маска совпадает с истинной маской. Интерпретация:
Если TP велико, а FP и FN малы, то индекс Дайса близок к 1.
Если FP или FN велики, то индекс Дайса уменьшается.
Метрики IoU и Dice связаны следующим образом:
В связи с этой тесной связью нет необходимости одновременно вычислять обе метрики — достаточно одной.
Помимо указанных основных метрик, для детального анализа качества сегментации могут применяться:
Boundary IoU — вариант IoU, который учитывает пиксели на границе сегментируемых объектов с меньшим весом или полностью исключает их.
Hausdorff Distance (расстояние Хаусдорфа) — измеряет максимальное расстояние между двумя контурами сегментированных областей, что полезно для оценки точности границ.
True Positive (TP) — объект верно обнаружен и классифицирован.
False Positive (FP) — ложное срабатывание: либо объект определен там, где его нет, либо ошибочно классифицирован при достаточном пересечении.
True Negative (TN) — система правильно не нашла объект (для задач детекции этот показатель обычно рассматривается редко, т.к. объект может быть найден в другом месте или выбрана иная зона интереса [4], поэтому большее значением имеет IoU, о чем читайте ниже).
False Negative (FN) — система пропустила объект, который реально есть на изображении.
Подобно задачам классификации и сегментации, в задачах детекции можно рассчитывать Precision и Recall:
Precision показывает, какая доля обнаруженных (предсказанных) объектов действительно является корректной.
Recall показывает, какая доля реальных объектов была обнаружена.
F1-Score — гармоническое среднее между Precision и Recall, объединяющее их в одну сводную метрику.
Однако в детекции объекты считаются истинно положительными, только если IoU между предсказанной и реальной рамкой превышает некоторый порог (например, 0.5). Если пересечение меньше порога, объект считается FP.
Чтобы оценить качество локализации объекта, используют также IoU:
если IoU 0.5 (или другой выбранный порог), обычно говорят, что обнаружение корректно,
если IoU меньше порога, модель ошиблась, и предсказанная рамка считается ложноположительной.
Значение порога может варьироваться: при более высоком пороге модель должна точнее определять ограничивающие рамки.
Оценка Average Precision (AP) для одного класса рассчитывается как площадь под кривой Precision‑Recall.
Mean Average Precision (mAP) — это средняя по всем классам величина AP. В разных задачах детекции:
иногда AP считается при одном пороге IoU (например, 0.5), и результат усредняется по всем классам,
иногда AP вычисляется при разных порогах (0.5, 0.55, 0.6, …, 0.95) и усредняется, давая более строгую оценку.
mAP позволяет оценить и сравнить качество моделей детекции с учетом как локализации, так и классификации, учитывая все классы объектов.
IoU thresholds — использование нескольких порогов IoU дает более детальную информацию о том, насколько точно модель локализует объекты.
Size splits — оценка mAP по размерам объектов (small, medium, large) помогает понять, как модель работает на объектах разного масштаба.
Confidence score — прогнозируемая моделью уверенность в обнаружении объекта также влияет на подсчет метрик: чаще всего мы строим кривую Precision‑Recall, изменяя порог по confidence score.
Понимание сильных и слабых сторон каждой метрики и совместное использование нескольких показателей дают наиболее полное представление о возможностях и ограничениях модели. Так для классификации и детекции особенно актуальны Precision, Recall и F1-score и производные метрики: mAP — для детекции, усредненные варианты (Micro, Macro, Weighted) — при многоклассовых задачах. В сегментации фокус смещается на попиксельную точность (Pixel Accuracy) и метрики, оценивающие степень пересечения предсказанных и истинных масок: IoU и Dice. Совет: всегда обращайте внимание на то, как оценивать результаты вашего обучения [5] модели.
Итого: сбалансированность выборки, определение оптимальных порогов IoU и confidence score, а также учет размера объектов в детекции оказывают значительное влияние на итоги экспериментов. Все это важно не только для объективной оценки модели, но и для поиска верного пути оптимизации, чтобы итоговые результаты были надежными и применимыми на практике.
Автор: Alexandr1997ag
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/13511
URLs in this post:
[1] Внимание: http://www.braintools.ru/article/7595
[2] ошибка: http://www.braintools.ru/article/4192
[3] Классная статья на Хабре: https://habr.com/ru/companies/otus/articles/809147/
[4] интереса: http://www.braintools.ru/article/4220
[5] обучения: http://www.braintools.ru/article/5125
[6] Источник: https://habr.com/ru/companies/slsoft/articles/893694/?utm_campaign=893694&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.