речевые технологии.

Наш новый LLM-based синтез речи

Всем привет! Я Гриша Стерлинг, лид команды TTS в Сбере. Мы сделали новый синтез речи, он на голову лучше старого, особенно по естественности и человечности. Мы так и называем его – «новый синтез», или GigaTTS. Он умеет смеяться, справляется со всеми эмоциями, говорит как живой человек.Сразу предлагаю поболтать с ним в голосовом режиме GigaChat.

продолжить чтение

Как мы научили GigaChat слышать: погружение в аудиомодальность

В конце прошлого года мы рассказывали про эксперименты с аудиомодальностью GigaChat, эксклюзивно показывали стенд на нашей конференции. Теперь аудиомодальность GigaChat доступна всем — в веб-интерфейсе giga.chat и Telegram-боте!Сегодня мы расскажем, почему ушли от классической схемы ASR (Automatic Speech Recognition) + LLM и построили end-to-end модель, которая понимает речь; как устроена наша новая модель; на каких данных мы её обучали; и что из этого получилось.

продолжить чтение

Спецификация формата RTTM: полное техническое описание

Если бы у аудио был паспорт — он был бы в формате RTTM.ПредисловиеСовсем недавно, при подготовке данных для обучения модели диаризации я впервые всерьёз столкнулся с форматом RTTM, о котором прежде знал лишь поверхностно. Казалось бы, очередной текстовый формат, но именно он лежит в основе точной и структурированной разметки аудио: кто говорит, когда и как долго.Именно тогда я понял, насколько ключевую роль играет RTTM в задачах автоматического анализа речи. Однако, попытавшись разобраться в его устройстве, я с удивлением обнаружил, что

продолжить чтение

Беспрецедентный сдвиг в голосовых интерфейсах ИИ

Всем привет! Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь материалами, которые помогают:Продуктовым менеджерам — интегрировать AI без перегрузки команд;Разработчикам — выбирать инструменты под конкретные бизнес-задачи;Специалистам по данным — избегать ошибок в production-развертывании.У себя в телеграм-канале делюсь сжатыми и структурированными саммери статей.Сегодняшний перевод — When machines learn to speak

продолжить чтение

Пришёл, накодил, победил: хакатон глазами победителей и организаторов

В этой статье мы хотим поделиться своим опытом, который поможет вам подготовиться к любому хакатону (hackathon). Наверняка вы уже слышали про этот специфический формат соревнований для айтишников. На них ставятся практические задачи, которые участники решают за определённое время, имея ограниченные ресурсы. Обычно участники представлены командами, поэтому крайне важно уметь работать сообща. Помимо денежного приза победители получают известность. В дальнейшем это способствует обращению к ним с заказами на решение подобных задач.

продолжить чтение

Meta* запускает программу по сбору языковых данных для развития AI

Meta запускает новую программу в партнёрстве с ЮНЕСКО по сбору речевых записей и расшифровок, которые, по словам компании, помогут в разработке общедоступного AI в будущем.Партнерская программа 

продолжить чтение

Rambler's Top100