аудио.

Nari Labs выпустила компактную модель Dia для генерации диалогов из текста

Разработчики Nari Labs выпустили компактную нейросеть Dia для генерации диалогов из текста. Также пользователи могут управлять эмоциями собеседников и невербальной коммуникацией: смехом, кашлем и вздохами.

Стартап LiveKit получает $45 млн на развитие облачной платформы для потоковой передачи мультимедиа

Для многих технологических компаний проблемой является доставка пользователям мультимодальных данных с высокой пропускной способностью — например, одновременного аудио и видео — в режиме реального времени без перерывов. Некоторые компании разрабатывают решения внутри компании, но они часто требуют большого объема обслуживания и ремонта.

Вышла YuE — открытая модель машинного обучения для генерации музыки

Исследователи Гонконгского университета науки и технологии представили открытую нейросеть для генерации музыки. Авторы проект называют свою разработку бесплатным аналогом Suno. Модель может генерировать инструментальные композиции и песни.

Suno AI — а не спеть ли нам песню о любви? А не выпустить ли новый хит?

Что это за сервис Suno, чем он уникален и почему о нём стоит рассказать? Вкратце, Suno AI это самая продвинутая из всех на конец 2024 года коммерческая нейросеть по созданию музыки. Все мы знаем, что для того чтобы создавать красивые картинки уже третий год не требуется умение рисовать, достаточно только уметь описать что вы хотите увидеть, вот и в музыкальном творчестве с появлением Suno всё тоже стало очень демократично — создание качественной музыки и песен на базовом уровне не требует больше слуха или образования, нужно только желание и немного фантазии. Вот, например, оцените песню

Нейросеть Llama3 получила улучшенное понимание речи

Разработчики Llama3-s v0.2 поделились улучшениями, которые модель продемонстрировала в тестах понимания речи и способности «слушать». В llama3-s v0.1 начали внедрять акустические токены. В v0.2 реализовали слияние с семантическими токенами, которые обладают такими преимуществами, как простота, лучшее сжатие и последовательное извлечение признаков речи.

Какой метод генерации аудио лучший? Сравнение GAN, VAE и Diffusion

В прошлой статье я затронул тему генерации звука с помощью диффузионной модели. Но какие методы существуют вообще и какой из них сейчас наиболее перспективен? Сегодня мы рассмотрим долгий путь этого направления в машинном обучении. Послушаем результаты, посмотрим метрики и просто взглянем на новые технологии, применяемые в совершенно разных нейросетях для аудиосинтеза.

Рейтинг@Mail.ru
Rambler's Top100