Качество голосов, сгенерированных AI, достаточно хорошее для таких вещей, как создание аудиокниг и подкастов, чтение статей вслух и базовая поддержка клиентов. Но многие компании не считают, что голосовая технология AI достаточно надежна для развертывания.

Вот почему два выпускника Массачусетского технологического института, Моин Надим и Нихил Мурти (на фото выше), основали Phonic — компанию, предлагающую комплексный голосовой стек для повышения надежности синтезированной речи и одновременного сокращения задержек.
Надим и Мурти встретились в MIT и знают друг друга уже более семи лет. Когда дуэт начал разрабатывать Phonic в прошлом году, они чувствовали, что не так много компаний создают комплексные решения для голосовых технологий.
«Голосовой AI находится в месте, где вы связываете разные части, такие как автоматическое распознавание голоса и преобразование текста в речь, а затем интегрируете интеллект», — сказал Мурти TechCrunch. «Однако, когда мы поговорили с реальными клиентами, мы обнаружили, что существует нехватка решений, которые являются надежными в масштабе».
Надим, ранее работавший в MosaicML, компании, которую Databricks приобрела за 1,3 млрд долларов в 2023 году, рассказал, что многие компании, работающие в сфере голосового AI (например, Vapi, Rounded), создают рабочие процессы для объединения отдельных моделей AI. Phonic использует другой подход: он обучает свои модели внутри компании от начала до конца. Мурти сказал, что в этом есть несколько преимуществ.
«Владение моделями позволяет нам глубоко интегрировать некоторые элементы надежности в сами модели», — сказал он. «Если вы не владеете этим слоем, вы просто связываете разрозненные элементы, которые на самом деле не подходят друг другу».
Мурти добавил, что метод Phonic также позволяет компании размещать и запускать модели экономически эффективно. Он утверждает, что Phonic обучает свои модели на различных записях, включая записи акцентированной и приглушенной речи, чтобы сделать модели очень надежными.
Phonic в настоящее время работает с ограниченным кругом партнеров, включая компании в сфере страхования и здравоохранения, но планирует широко запустить свой продукт через несколько месяцев. Вскоре потенциальные клиенты смогут опробовать технологию Phonic на ее веб-сайте, сказал Надим.
Phonic привлекла 4 миллиона долларов в ходе посевного раунда, проведенного Lux при участии соучредителя Replit Амджада Масада, соучредителя Hugging Face Клема Деланга, соучредителя Applied Intuition Касара Юниса и основателя Modal Labs Эрика Бернхардссона.
Грейс Исфорд, партнер Lux Capital, отметила, что внутренний метод обучения моделей компании оказался привлекательным для инвестиционной фирмы.
«Мы считаем, что и Мойн, и Нихил — невероятные технологи», — сказала она. «Они основали клуб машинного обучения в MIT. И они уже некоторое время работают над моделями обучения. Плюс, их подход к объединению диффузионных и фирменных моделей в секторе голосового AI является новым».
Автор: dilnaz_04