В МТИ создали компьютерную модель, которая умеет определять источник звука

Нейробиологи Массачусетского технологического института разработали ^[1] компьютерную модель, которая может определять источники звуков. Модель включает несколько сверточных нейронных сетей и способна обнаружить происхождение звуков в реальных условиях подобно человеческому уху.

Человеческий мозг ^[2] определяет направление, сравнивая звуки, которые достигают правого и левого уха. Эта задача заметно усложняется в реальных условиях — когда окружающая среда создает эхо и слышно много звуков одновременно.

Ученые давно пытались построить компьютерные модели, которые могли бы выполнять такие же вычисления, которые мозг использует для локализации звуков. Эти модели иногда хорошо работали в идеальных условиях без фонового шума, но не в реальных условиях.

Команда Массачусетского технологического института обратилась к сверточным нейронным сетям. Они уже широко используются для моделирования зрительной системы ^[3] человека.

Сверточные нейронные сети могут быть разработаны с использованием множества различных архитектур, поэтому, чтобы помочь им найти те, которые лучше всего подходят для локализации, команда использовала суперкомпьютер, который позволил обучить и протестировать около 1500 различных моделей. Исследователи выявили 10 моделей, которые казались наиболее подходящими для локализации, а затем дополнительно обучили их.

Для обучения ^[4] моделей исследователи создали виртуальный мир, в котором они могут контролировать размер комнаты и отражающие свойства стен комнаты. Все звуки, подаваемые на модели, исходили откуда-то из одной из этих виртуальных комнат. Набор из более чем 400 обучающих звуков включал в себя человеческие голоса, звуки животных, машин, такие как автомобильные двигатели, и естественные звуки, такие как гром.

Исследователи также обеспечили запуск модели с той же информацией, что поступает в человеческие уши. Наружное ухо, или ушная раковина, имеет множество складок, которые отражают звук, изменяя частоты, и эти отражения различаются в зависимости от того, откуда исходит звук. Исследователи смоделировали этот эффект, пропустив каждый звук через специальную математическую функцию, прежде чем он попал в компьютерную модель.

После обучения моделей исследователи протестировали их в реальных условиях. Они разместили манекен с микрофонами в ушах в реальной комнате и воспроизвели звуки с разных направлений, а затем передали эти записи моделям. Модель смогла локализовать звуки в реальном мире.

Затем исследователи подвергли модели серии тестов, которые ученые использовали в прошлом для изучения способностей человека к локализации.

Они также подтвердили утверждение о том, что человеческий мозг основывает свои суждения о местонахождении звука на различиях в интенсивности сигналов, достигающих каждого уха. Команда Массачусетского технологического института обнаружила, что модель показала ту же чувствительность к частоте.

«Похоже, она использует синхронизацию и разницу уровней между двумя ушами так же, как это делают люди, и это зависит от частоты звука», — отметили исследователи.

В МТИ также показали, что усложняли задачи локализации, добавляя несколько источников звука, воспроизводимых одновременно, а производительность компьютерных моделей при этом снижалась таким образом, что имитировала человеческие неудачи.

Исследователи пришли к выводу, что люди ограничены возможностью одновременно локализовать около трех источников звука, и модель показала тот же результат.

Поскольку команда использовала виртуальный мир, она также смогла изучить, что происходит, когда модель учится локализоваться в различных типах неестественных условий. Исследователи обучили один набор моделей в виртуальном мире без эха, а другой — в мире, где никогда не было слышно более одного звука за раз. В третьем случае модели подвергались воздействию только звуков с узким частотным диапазоном, а не естественных звуков.

Когда модели, обученные в этих неестественных мирах, оценивались с помощью одного и того же набора поведенческих тестов, они отклонялись от человеческого поведения ^[5], и способы, которыми они терпели неудачу, различались в зависимости от типа обучающей среды. Эти результаты подтверждают идею о том, что способности человеческого мозга к локализации адаптированы к среде, в которой развивались люди.

В настоящее время исследователи применяют этот тип моделирования к другим аспектам слуха ^[6], таким как восприятие ^[7] высоты тона и распознавание речи, и считают, что его также можно использовать для понимания других когнитивных явлений, например, ограничений внимательности и запоминания ^[8].

Ранее исследователи из Университета Гвельфа в Онтарио разработали ^[9] и обучили «гиперсеть», которая может ускорить процесс обучения других нейросетей. Она предсказывает параметры новой нейросети за доли секунды, и теоретически может сделать ее обучение ненужным, создавая чрезвычайно сложные модели глубоких нейронных сетей.

Автор: maybe_elf

Источник ^[10]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/10545

URLs in this post:

[1] разработали: https://news.mit.edu/2022/where-sound-come-from-model-0127

[2] мозг: http://www.braintools.ru/parts-of-the-brain

[3] зрительной системы: http://www.braintools.ru/article/9236

[4] обучения: http://www.braintools.ru/article/5125

[5] поведения: http://www.braintools.ru/article/9372

[6] слуха: http://www.braintools.ru/article/6251

[7] восприятие: http://www.braintools.ru/article/7534

[8] запоминания: http://www.braintools.ru/article/722

[9] разработали: https://habr.com/ru/news/t/648151/

[10] Источник: https://habr.com/ru/news/648595/?utm_source=habrahabr&utm_medium=rss&utm_campaign=648595

Нажмите здесь для печати.