Беспрецедентный сдвиг в голосовых интерфейсах ИИ. IT-инфраструктура.. IT-инфраструктура. openai.. IT-инфраструктура. openai. Будущее здесь.. IT-инфраструктура. openai. Будущее здесь. будущее коммуникаций.. IT-инфраструктура. openai. Будущее здесь. будущее коммуникаций. голосовой ии.. IT-инфраструктура. openai. Будущее здесь. будущее коммуникаций. голосовой ии. Голосовые интерфейсы.. IT-инфраструктура. openai. Будущее здесь. будущее коммуникаций. голосовой ии. Голосовые интерфейсы. искусственный интеллект.. IT-инфраструктура. openai. Будущее здесь. будущее коммуникаций. голосовой ии. Голосовые интерфейсы. искусственный интеллект. Исследования и прогнозы в IT.. IT-инфраструктура. openai. Будущее здесь. будущее коммуникаций. голосовой ии. Голосовые интерфейсы. искусственный интеллект. Исследования и прогнозы в IT. коммуникация.. IT-инфраструктура. openai. Будущее здесь. будущее коммуникаций. голосовой ии. Голосовые интерфейсы. искусственный интеллект. Исследования и прогнозы в IT. коммуникация. разговорный ии.. IT-инфраструктура. openai. Будущее здесь. будущее коммуникаций. голосовой ии. Голосовые интерфейсы. искусственный интеллект. Исследования и прогнозы в IT. коммуникация. разговорный ии. речевые технологии.. IT-инфраструктура. openai. Будущее здесь. будущее коммуникаций. голосовой ии. Голосовые интерфейсы. искусственный интеллект. Исследования и прогнозы в IT. коммуникация. разговорный ии. речевые технологии. социальное воздействие технологий.

Всем привет!
Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь материалами, которые помогают:

  • Продуктовым менеджерам — интегрировать AI без перегрузки команд;

  • Разработчикам — выбирать инструменты под конкретные бизнес-задачи;

  • Специалистам по данным — избегать ошибок в production-развертывании.

У себя в телеграм-канале делюсь сжатыми и структурированными саммери статей.

Сегодняшний перевод — When machines learn to speak

Статья исследует фундаментальный сдвиг в технологиях голосового ИИ, произошедший благодаря переходу от каскадных архитектур к прямым speech-to-speech моделям и радикальному снижению стоимости API. Выделяется несколько ключевых проблем: сложность обработки прерываний собеседника, культурные различия в коммуникации и потенциальное влияние на межличностные навыки людей.

Главный практический результат — доступность технологии через простой API-вызов позволяет разработчикам создавать решения для автоматизации продаж, клиентской поддержки и медицинского скрининга, что открывает огромное окно возможностей для стартапов и корпораций в сфере голосового взаимодействия.


Июнь 2025 года. Сара ходит по гостиной, репетируя важную презентацию для клиента. Ее ИИ-компаньон внимательно слушает, вмешиваясь, когда это уместно, чтобы предложить обратную связь в реальном времени о ее речи и содержании. “Мне кажется, ты слишком быстро прошла через раздел об окупаемости инвестиций”, – предлагает он теплым, естественным голосом. “Давай попробуем эту часть снова, но на этот раз—” Сара прерывает на полуслове: “Вообще-то, можем мы сначала сосредоточиться на вступлении? И не будь таким придирчивым!” ИИ плавно перестраивается, без неловких пауз или роботизированных переходов. То, что когда-то было разочаровывающим опытом жестких, неестественных взаимодействий с голосовыми помощниками, превратилось в плавную, человекоподобную беседу.

В последнее время я много думал о голосовом ИИ и создавал решения в этой области, и на горизонте появляется нечто беспрецедентное: впервые в истории у нас есть доступный в реальном времени, доступный по цене и компетентный искусственный голос, который находится всего в одном API-запросе. Всего за несколько месяцев мы увидели значительные прорывы от OpenAI с Advanced Voice Mode (AVM) и новыми речевыми моделями, разговорным Gemini Flash в реальном времени от Google и эмоционально интеллектуальным ИИ от Sesame *1.

Это не просто техническая веха — это фундаментальный сдвиг в том, как мы взаимодействуем с технологиями и, потенциально, друг с другом. Это создаст множество новых возможностей для разработчиков, одновременно переопределяя саму природу человеческого общения.

Gavin Purcell спорит с голосовым ИИ Sesame в реальном времени 👆

Заря естественного голосового ИИ

Помните, когда вы в последний раз звонили в автоматизированную систему своего банка? Знакомый танец с повторяющимися фразами, непонятыми словами и отчаянными нажатиями “0”, чтобы дозвониться до оператора-человека. Эта эпоха заканчивается. Выпуск OpenAI Advanced Voice Mode (AVM) в прошлом сентябре ознаменовал поворотный момент, когда разговор с ИИ начал ощущаться по-настоящему человечным.

Эта трансформация является результатом двух ключевых прорывов. Во-первых, переход от каскадных архитектур (речь-в-текст → обработка текста → текст-в-речь) к прямым моделям речь-в-речь устраняет промежуточные этапы обработки, которые ранее замедляли взаимодействие с разговорным ИИ. Во-вторых, драматическое снижение задержки и стоимости. Когда OpenAI изначально выпустила свой Realtime API, цена делала его непрактичным для широкого внедрения (18$ в час). Но всего четыре месяца спустя выпуск Google Gemini Flash 2.0 и снижение цен OpenAI на 60% открыли шлюзы для доступных и человекоподобных приложений голосового ИИ, находящихся в одном API-запросе.

Только на прошлой неделе OpenAI представила свои самые человекоподобные речевые модели, позволяющие разработчикам встраивать выразительные сигналы, такие как [ШЕПОТ] или [СМЕХ], непосредственно в текст. Вот небольшая демонстрация от OpenAI.fm — публичного инструмента, запущенного вместе с этим релизом, показывающего, как звучит этот новый уровень выразительности в действии.

Теперь разработчики могут запускать телефонных ассистентов, которые квалифицируют потенциальных клиентов, разрешают обращения в службу поддержки, автоматизируют продажи страховок или проводят скрининг пациентов перед предстоящими приемами. Необходимые инструменты уже доступны и находятся всего в одном API-запросе.

Проблема прерываний

Однако создание действительно естественного голосового взаимодействия — это не только быстрая обработка и лучший синтез голоса. Одна из самых увлекательных проблем заключается в обработке прерываний — фундаментального аспекта человеческого разговора, с которым ИИ всё еще борется.

Текущие системы голосового ИИ, включая упомянутые, такие как OpenAI AVM, сталкиваются с несколькими ключевыми проблемами:

  1. Чрезмерная чувствительность к фоновому шуму (я всегда отключаю микрофон, когда не говорю)

  2. Неспособность различать значимых говорящих и фоновые разговоры

  3. Отсутствие визуальных сигналов, которые люди используют для предвидения и управления прерываниями

В отличие от телефонных разговоров между людьми, где практически нулевая задержка и естественная очередность делают прерывания управляемыми, взаимодействие с ИИ часто ощущается неуклюжим, когда пользователи пытаются вмешаться *2. Интересно, что люди склонны прерывать ИИ чаще и агрессивнее, чем они бы прерывали других людей, создавая новую проблему для разработчиков голосового ИИ и одновременно создавая новую парадигму взаимодействия для разговора человека с ИИ.

Социальное воздействие

Эта голосовая революция поднимает глубокие вопросы о человеческом взаимодействии и отношениях:

  • Может ли мгновенное удовлетворение от прерываемых разговоров с ИИ и возможность быть грубым без последствий ухудшить наше терпение и навыки межличностного общения, подобно тому, как повсеместный доступ к порнографии исказил общественные ожидания относительно близости?

  • Удобство постоянно доступных консультаций с ИИ может снизить нашу зависимость от человеческих отношений. Подумайте, как раньше мы полагались на чтение карт и спрашивали местных жителей о направлении — навыки, теперь в значительной степени заброшенные, поскольку мы полагаемся на GPS. Могут ли значимые разговоры быть следующими?

  • Не будем ли мы вскоре иметь больше разговорных обменов с ИИ-агентами, чем с человеческими компаньонами?

Подумайте: предпочли бы вы репетировать важную презентацию перед потенциально осуждающим другом или мгновенно проконсультироваться с неосуждающим ИИ-компаньоном, доступным 24/7?

Что это значит для наших межличностных отношений?

Культурные нюансы в разговорах с ИИ

В человеческом разговоре один подход не подходит всем, и то же самое справедливо для ИИ. Недавнее обновление OpenAI от GPT-4o до GPT-4.5 было в основном направлено на отход от тона “корпоративного HR”, признавая, что естественный разговор значительно варьируется в зависимости от культуры и контекста.

Ex-OpenAI/Tesla, Andrej Karpathy, описывающий новую личность GPT-4.5

Ex-OpenAI/Tesla, Andrej Karpathy, описывающий новую личность GPT-4.5

Разные культуры имеют отличительные модели прерывания, нормы вежливости и стили разговора. Сегодняшние системы в значительной степени не учитывают эти культурные различия, создавая значительные возможности для разработчиков ИИ для создания моделей, которые адаптируются к:

  • Культурному происхождению

  • Индивидуальным паттернам пользователя

  • Контекстуальным сигналам

  • Историческим взаимодействиям

OpenAI уже обладает таким контекстом через свою функцию Memory, а Google, конечно, уже знает о нас практически всё.

Я представляю, что лучшие разговорные системы ИИ будущего будут включать в себя нюансы, которые мы принимаем как должное.

Переосмысление коммуникации

Святым граалем для разговорного ИИ может быть достижение естественного потока телефонного разговора между людьми, где прерывания ощущаются естественно, а очередность выступлений происходит плавно. Но, возможно, нам нужно ставить цели выше. Поскольку системы ИИ приобретают мультимодальные возможности (зрение, осязание и т.д.), они потенциально могут превзойти человеческий разговор, считывая тонкие сигналы, которые мы часто упускаем.

Бытовые роботы Figure обучаются задачам на ходу 👆

Что меня больше всего удивляет, так это то, как медленно внедряется Advanced Voice Mode. Несмотря на впечатляющие возможности, многие мои друзья по-прежнему предпочитают печатать или использовать Whisper (модель преобразования речи в текст от OpenAI), а не вести естественные разговоры с ним. Возможно, эта нерешительность отражает нашу коллективную неопределенность в отношении естественного общения с машинами, или просто недостаток осведомленности — в конце концов, эта функция стала доступна бесплатным пользователям только в прошлом месяце, и многие могут еще не знать, как ею пользоваться. В любом случае, это наводит на мысль, что мы находимся в неловкой подростковой фазе внедрения голосового ИИ — технология способна, но наши привычки и ожидания еще не совсем догнали ее.

Революция голосового ИИ — это не просто о том, чтобы заставить машины звучать более по-человечески, это о фундаментальном изменении того, как мы думаем о разговоре, отношениях и человеческом взаимодействии. Хотя в краткосрочной перспективе мы, безусловно, увидим распространение телефонных ИИ-агентов и компьютерных помощников, под поверхностью формируется более глубокая трансформация.

Создавая эти системы, нам нужно учитывать не только то, что технически возможно, но и то, что социально желательно. Пока ясно, что мы вступаем в эпоху, когда грань между человеческим разговором и ИИ-разговором становится все более размытой — к лучшему или к худшему.


В заключение, на более легкой ноте, вот забавное видео, в котором Голосовой режим ChatGPT переосмысливает альтернативный финал “Титаника”.

[1] Sesame недавно выпустила с открытым исходным кодом (Apache 2.0) версию своей впечатляющей модели голосового помощника

[2] По слухам из Сан-Франциско, ведущие лаборатории ИИ находятся на пороге прорыва, который может решить эти проблемы


Кто готов общаться больше с ИИ чем с человеком? 😅
Послушайте примеры 🤯

Автор: Kual

Источник

Рейтинг@Mail.ru
Rambler's Top100