- BrainTools - https://www.braintools.ru -
Качество голосов, сгенерированных AI, достаточно хорошее для таких вещей, как создание аудиокниг и подкастов, чтение статей вслух и базовая поддержка клиентов. Но многие компании не считают, что голосовая технология AI достаточно надежна для развертывания [1].
Вот почему два выпускника Массачусетского технологического института, Моин Надим и Нихил Мурти (на фото выше), основали Phonic [2] — компанию, предлагающую комплексный голосовой стек для повышения надежности синтезированной речи и одновременного сокращения задержек.
Надим и Мурти встретились в MIT и знают друг друга уже более семи лет. Когда дуэт начал разрабатывать Phonic в прошлом году, они чувствовали, что не так много компаний создают комплексные решения для голосовых технологий.
«Голосовой AI находится в месте, где вы связываете разные части, такие как автоматическое распознавание голоса и преобразование текста в речь, а затем интегрируете интеллект», — сказал Мурти TechCrunch. «Однако, когда мы поговорили с реальными клиентами, мы обнаружили, что существует нехватка решений, которые являются надежными в масштабе».
Надим, ранее работавший в MosaicML, компании, которую Databricks приобрела за 1,3 млрд долларов в 2023 году [3], рассказал, что многие компании, работающие в сфере голосового AI (например, Vapi [4], Rounded [5]), создают рабочие процессы для объединения отдельных моделей AI. Phonic использует другой подход: он обучает свои модели внутри компании от начала до конца. Мурти сказал, что в этом есть несколько преимуществ.
«Владение моделями позволяет нам глубоко интегрировать некоторые элементы надежности в сами модели», — сказал он. «Если вы не владеете этим слоем, вы просто связываете разрозненные элементы, которые на самом деле не подходят друг другу».
Мурти добавил, что метод Phonic также позволяет компании размещать и запускать модели экономически эффективно. Он утверждает, что Phonic обучает свои модели на различных записях, включая записи акцентированной и приглушенной речи, чтобы сделать модели очень надежными.
Phonic в настоящее время работает с ограниченным кругом партнеров, включая компании в сфере страхования и здравоохранения, но планирует широко запустить свой продукт через несколько месяцев. Вскоре потенциальные клиенты смогут опробовать технологию Phonic на ее веб-сайте, сказал Надим.
Phonic привлекла 4 миллиона долларов в ходе посевного раунда, проведенного Lux при участии соучредителя Replit Амджада Масада, соучредителя Hugging Face Клема Деланга, соучредителя Applied Intuition Касара Юниса и основателя Modal Labs Эрика Бернхардссона.
Грейс Исфорд, партнер Lux Capital, отметила, что внутренний метод обучения [6] моделей компании оказался привлекательным для инвестиционной фирмы.
«Мы считаем, что и Мойн, и Нихил — невероятные технологи», — сказала она. «Они основали клуб машинного обучения в MIT. И они уже некоторое время работают над моделями обучения. Плюс, их подход к объединению диффузионных и фирменных моделей в секторе голосового AI является новым».
Источник [7]
Автор: dilnaz_04
Источник [8]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/13869
URLs in this post:
[1] достаточно надежна для развертывания: https://www.sciencedirect.com/science/article/abs/pii/S1567422323000261
[2] Phonic: https://phonic.co/
[3] компании, которую Databricks приобрела за 1,3 млрд долларов в 2023 году: https://techcrunch.com/2023/06/26/databricks-picks-up-mosaicml-an-openai-competitor-for-1-3b/
[4] Vapi: https://techcrunch.com/2023/11/10/yc-backed-productivity-app-superpowered-pivots-to-become-a-voice-api-platform-for-bots/
[5] Rounded: https://techcrunch.com/2025/01/09/rounded-is-an-ai-orchestration-platform-that-lets-anyone-build-an-ai-voice-agent/
[6] обучения: http://www.braintools.ru/article/5125
[7] Источник: https://techcrunch.com/2025/04/03/end-to-end-voice-ai-solution-phonic-gets-backing-from-lux/
[8] Источник: https://habr.com/ru/companies/bothub/news/897344/?utm_source=habrahabr&utm_medium=rss&utm_campaign=897344
Нажмите здесь для печати.