аудио.

Nari Labs выпустила компактную модель Dia для генерации диалогов из текста

Разработчики Nari Labs выпустили компактную нейросеть Dia для генерации диалогов из текста. Также пользователи могут управлять эмоциями собеседников и невербальной коммуникацией: смехом, кашлем и вздохами.

продолжить чтение ......

Оставлено в

Стартап LiveKit получает $45 млн на развитие облачной платформы для потоковой передачи мультимедиа

Для многих технологических компаний проблемой является доставка пользователям мультимодальных данных с высокой пропускной способностью — например, одновременного аудио и видео — в режиме реального времени без перерывов. Некоторые компании разрабатывают решения внутри компании, но они часто требуют большого объема обслуживания и ремонта.

продолжить чтение ......

Оставлено в

Вышла YuE — открытая модель машинного обучения для генерации музыки

Исследователи Гонконгского университета науки и технологии представили открытую нейросеть для генерации музыки. Авторы проект называют свою разработку бесплатным аналогом Suno. Модель может генерировать инструментальные композиции и песни.

продолжить чтение ......

Оставлено в

Suno AI — а не спеть ли нам песню о любви? А не выпустить ли новый хит?

Что это за сервис Suno, чем он уникален и почему о нём стоит рассказать? Вкратце, Suno AI это самая продвинутая из всех на конец 2024 года коммерческая нейросеть по созданию музыки. Все мы знаем, что для того чтобы создавать красивые картинки уже третий год не требуется умение рисовать, достаточно только уметь описать что вы хотите увидеть, вот и в музыкальном творчестве с появлением Suno всё тоже стало очень демократично — создание качественной музыки и песен на базовом уровне не требует больше слуха или образования, нужно только желание и немного фантазии. Вот, например, оцените песню

продолжить чтение ......

Оставлено в

Нейросеть Llama3 получила улучшенное понимание речи

Разработчики Llama3-s v0.2 поделились улучшениями, которые модель продемонстрировала в тестах понимания речи и способности «слушать». В llama3-s v0.1 начали внедрять акустические токены. В v0.2 реализовали слияние с семантическими токенами, которые обладают такими преимуществами, как простота, лучшее сжатие и последовательное извлечение признаков речи.

продолжить чтение ......

Оставлено в

Какой метод генерации аудио лучший? Сравнение GAN, VAE и Diffusion

В прошлой статье я затронул тему генерации звука с помощью диффузионной модели. Но какие методы существуют вообще и какой из них сейчас наиболее перспективен? Сегодня мы рассмотрим долгий путь этого направления в машинном обучении. Послушаем результаты, посмотрим метрики и просто взглянем на новые технологии, применяемые в совершенно разных нейросетях для аудиосинтеза.

продолжить чтение ......

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

аудио.

Nari Labs выпустила компактную модель Dia для генерации диалогов из текста

Стартап LiveKit получает $45 млн на развитие облачной платформы для потоковой передачи мультимедиа

Вышла YuE — открытая модель машинного обучения для генерации музыки

Suno AI — а не спеть ли нам песню о любви? А не выпустить ли новый хит?

Нейросеть Llama3 получила улучшенное понимание речи

Какой метод генерации аудио лучший? Сравнение GAN, VAE и Diffusion

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

аудио.

Nari Labs выпустила компактную модель Dia для генерации диалогов из текста

Стартап LiveKit получает $45 млн на развитие облачной платформы для потоковой передачи мультимедиа

Вышла YuE — открытая модель машинного обучения для генерации музыки

Suno AI — а не спеть ли нам песню о любви? А не выпустить ли новый хит?

Нейросеть Llama3 получила улучшенное понимание речи

Какой метод генерации аудио лучший? Сравнение GAN, VAE и Diffusion