- BrainTools - https://www.braintools.ru -
Нейробиологи Массачусетского технологического института разработали [1] компьютерную модель, которая может определять источники звуков. Модель включает несколько сверточных нейронных сетей и способна обнаружить происхождение звуков в реальных условиях подобно человеческому уху.
Человеческий мозг [2] определяет направление, сравнивая звуки, которые достигают правого и левого уха. Эта задача заметно усложняется в реальных условиях — когда окружающая среда создает эхо и слышно много звуков одновременно.
Ученые давно пытались построить компьютерные модели, которые могли бы выполнять такие же вычисления, которые мозг использует для локализации звуков. Эти модели иногда хорошо работали в идеальных условиях без фонового шума, но не в реальных условиях.
Команда Массачусетского технологического института обратилась к сверточным нейронным сетям. Они уже широко используются для моделирования зрительной системы [3] человека.
Сверточные нейронные сети могут быть разработаны с использованием множества различных архитектур, поэтому, чтобы помочь им найти те, которые лучше всего подходят для локализации, команда использовала суперкомпьютер, который позволил обучить и протестировать около 1500 различных моделей. Исследователи выявили 10 моделей, которые казались наиболее подходящими для локализации, а затем дополнительно обучили их.
Для обучения [4] моделей исследователи создали виртуальный мир, в котором они могут контролировать размер комнаты и отражающие свойства стен комнаты. Все звуки, подаваемые на модели, исходили откуда-то из одной из этих виртуальных комнат. Набор из более чем 400 обучающих звуков включал в себя человеческие голоса, звуки животных, машин, такие как автомобильные двигатели, и естественные звуки, такие как гром.
Исследователи также обеспечили запуск модели с той же информацией, что поступает в человеческие уши. Наружное ухо, или ушная раковина, имеет множество складок, которые отражают звук, изменяя частоты, и эти отражения различаются в зависимости от того, откуда исходит звук. Исследователи смоделировали этот эффект, пропустив каждый звук через специальную математическую функцию, прежде чем он попал в компьютерную модель.
После обучения моделей исследователи протестировали их в реальных условиях. Они разместили манекен с микрофонами в ушах в реальной комнате и воспроизвели звуки с разных направлений, а затем передали эти записи моделям. Модель смогла локализовать звуки в реальном мире.
Затем исследователи подвергли модели серии тестов, которые ученые использовали в прошлом для изучения способностей человека к локализации.
Они также подтвердили утверждение о том, что человеческий мозг основывает свои суждения о местонахождении звука на различиях в интенсивности сигналов, достигающих каждого уха. Команда Массачусетского технологического института обнаружила, что модель показала ту же чувствительность к частоте.
«Похоже, она использует синхронизацию и разницу уровней между двумя ушами так же, как это делают люди, и это зависит от частоты звука», — отметили исследователи.
В МТИ также показали, что усложняли задачи локализации, добавляя несколько источников звука, воспроизводимых одновременно, а производительность компьютерных моделей при этом снижалась таким образом, что имитировала человеческие неудачи.
Исследователи пришли к выводу, что люди ограничены возможностью одновременно локализовать около трех источников звука, и модель показала тот же результат.
Поскольку команда использовала виртуальный мир, она также смогла изучить, что происходит, когда модель учится локализоваться в различных типах неестественных условий. Исследователи обучили один набор моделей в виртуальном мире без эха, а другой — в мире, где никогда не было слышно более одного звука за раз. В третьем случае модели подвергались воздействию только звуков с узким частотным диапазоном, а не естественных звуков.
Когда модели, обученные в этих неестественных мирах, оценивались с помощью одного и того же набора поведенческих тестов, они отклонялись от человеческого поведения [5], и способы, которыми они терпели неудачу, различались в зависимости от типа обучающей среды. Эти результаты подтверждают идею о том, что способности человеческого мозга к локализации адаптированы к среде, в которой развивались люди.
В настоящее время исследователи применяют этот тип моделирования к другим аспектам слуха [6], таким как восприятие [7] высоты тона и распознавание речи, и считают, что его также можно использовать для понимания других когнитивных явлений, например, ограничений внимательности и запоминания [8].
Ранее исследователи из Университета Гвельфа в Онтарио разработали [9] и обучили «гиперсеть», которая может ускорить процесс обучения других нейросетей. Она предсказывает параметры новой нейросети за доли секунды, и теоретически может сделать ее обучение ненужным, создавая чрезвычайно сложные модели глубоких нейронных сетей.
Автор: maybe_elf
Источник [10]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/10545
URLs in this post:
[1] разработали: https://news.mit.edu/2022/where-sound-come-from-model-0127
[2] мозг: http://www.braintools.ru/parts-of-the-brain
[3] зрительной системы: http://www.braintools.ru/article/9236
[4] обучения: http://www.braintools.ru/article/5125
[5] поведения: http://www.braintools.ru/article/9372
[6] слуха: http://www.braintools.ru/article/6251
[7] восприятие: http://www.braintools.ru/article/7534
[8] запоминания: http://www.braintools.ru/article/722
[9] разработали: https://habr.com/ru/news/t/648151/
[10] Источник: https://habr.com/ru/news/648595/?utm_source=habrahabr&utm_medium=rss&utm_campaign=648595
Нажмите здесь для печати.