Учёные из Вашингтонского университета разработали прототип наушников, способных формировать «звуковой пузырь». Искусственный интеллект в сочетании с этими наушниками позволяет пользователю слышать голоса людей, находящихся в пределах регулируемого радиуса от трёх до шести футов. Звуки снаружи этого «пузыря» приглушаются в среднем на 49 децибел — это эквивалентно переходу от абсолютной тишины к лёгкому шёпоту, даже если внешние звуки изначально были громче внутренних.
Результаты исследований опубликованы в журнале Nature Electronics. Разработчики открыли код устройства для других исследователей, а сами готовятся к созданию стартапа для коммерциализации этой технологии.
Шьям Голлакота, ведущий исследователь и профессор Вашингтонского университета в Школе компьютерных наук и инженерии Пола Г. Аллена, отметил: «Человеку сложно точно определить расстояние до источника звука, особенно в присутствии множества других звуков. В шумных местах, таких как рестораны, наша концентрация может страдать. До сих пор было невозможно создать «звуковой пузырь» на таком уровне, однако наша система искусственного интеллекта способна определять дистанцию до каждого источника звука в помещении и обрабатывать эту информацию всего за восемь миллисекунд — непосредственно на устройстве».
Прототип был создан на основе стандартных наушников с функцией шумоподавления. К ним добавили шесть миниатюрных микрофонов, расположенных вдоль оголовья. Нейросеть, установленная на маленьком компьютере, подключённом к наушникам, фиксирует момент поступления звуков на каждый микрофон. Затем система снижает громкость звуков, исходящих из-за пределов «пузыря», одновременно слегка усиливая звуки внутри него. Это необходимо, поскольку наушники с шумоподавлением всё равно частично пропускают звуковые волны.
Голлакота рассказал: «Сначала мы разрабатывали систему умных колонок, разместив микрофоны на столе, полагая, что для точного определения расстояния до источника звука нужно значительное расстояние между ними. Но потом мы усомнились в этом подходе. Действительно ли нам требуется такое большое разделение, чтобы сформировать «звуковой пузырь»? Оказалось, что нет. Мы смогли добиться успеха, используя лишь микрофоны на самих наушниках, причём в реальном времени. Это стало настоящим открытием».
Для обучения системы распознавать и создавать звуковые пузыри в различных условиях учёным потребовались реальные данные о звуках на разных расстояниях, которых у них не было. Чтобы собрать необходимые сведения, исследователи использовали манекен, оснащённый наушниками. Специальная роботизированная платформа поворачивала голову манекена, имитируя движения человека, тогда как перемещающийся динамик генерировал звуки, доносящиеся с разных направлений и расстояний. Кроме того, данные собирались в реальных условиях с участием добровольцев в 22 различных помещениях, включая офисы и жилые комнаты.
Исследователи объяснили, почему система успешно справляется с задачей формирования «звукового пузыря». Прежде всего, форма головы пользователя отражается в звуках, что помогает нейросети отличать звуки, исходящие с разных расстояний. Помимо этого, звуки, включая человеческую речь, состоят из нескольких частот, каждая из которых проходит через разные стадии по мере удаления от источника. Алгоритм искусственного интеллекта анализирует фазу каждой частоты, определяя таким образом расстояние до источника звука, будь то говорящий человек или иной объект.
Современные наушники, такие как AirPods Pro 2 от Apple, способны усиливать голос человека перед пользователем, снижая при этом определённые фоны. Однако эти функции основаны на отслеживании положения головы и усилении звука, приходящего с конкретного направления, а не на точном измерении расстояния. Это значит, что такие наушники не могут одновременно усиливать несколько источников звука, теряя эффективность, если пользователь отворачивается от нужного источника, и недостаточно подавляя громкие звуки сбоку.
Разработанная система пока рассчитана исключительно на использование в закрытых пространствах, так как получение чистых звуковых данных на открытом воздухе представляет большую сложность. Сейчас команда работает над адаптацией технологии для слуховых аппаратов и наушников с шумоподавлением, что потребует новых решений по размещению микрофонов.
Соавторы исследования включают Малека Итании и Туочао Чена, докторантов Вашингтонского университета в Школе Аллена; Сефика Эмре Эскимеза, старшего научного сотрудника Microsoft; и Такую Йошиоцу, директора по исследованиям AssemblyAI. Проект получил финансирование от премии Moore Inventor Fellow Award, Фонда инновационных прорывов UW CoMotion и Национального научного фонда.
Источник: https://www.washington.edu/news/2024/11/14/ai-headphones-sound-bubble-noise-cancelling/