Вышла YuE — открытая модель машинного обучения для генерации музыки. suno.. suno. YuE.. suno. YuE. аудио.. suno. YuE. аудио. генерация аудио.. suno. YuE. аудио. генерация аудио. Звук.. suno. YuE. аудио. генерация аудио. Звук. искусственный интеллект.. suno. YuE. аудио. генерация аудио. Звук. искусственный интеллект. Машинное обучение.. suno. YuE. аудио. генерация аудио. Звук. искусственный интеллект. Машинное обучение. музыка.. suno. YuE. аудио. генерация аудио. Звук. искусственный интеллект. Машинное обучение. музыка. нейросеть.

Исследователи Гонконгского университета науки и технологии представили открытую нейросеть для генерации музыки. Авторы проект называют свою разработку бесплатным аналогом Suno. Модель может генерировать инструментальные композиции и песни.

Вышла YuE — открытая модель машинного обучения для генерации музыки - 1

В исследовании отмечается, что в задачах генерации песен на основе текста всё ещё нет чёткого понимания, как решить некоторые проблемы. Например, во многих реализациях не получается сохранить характер композиции до самого конца, а ещё нейросеть искажает слова, чтобы они лучше ложились на музыку. Есть удачные проприетарные реализации, но у исследователей нет возможности узнать, какие подходы в них применяются.

Для решения этой проблемы исследователи разработали семейство моделей машинного обучения YuE на базе языковой модели LLaMA. Нейросеть позволяет генерировать треки длительностью до пяти минут с согласованной музыкальной структурой. Для этого авторы проекта использовали аудиотокенизатор с улучшенным пониманием семантики для снижения затрат на обучение и текстовую цепочку мыслей для лучшей работы с контекстом. Для масштабируемости применили трёхступенчатый метод обучения.

Вышла YuE — открытая модель машинного обучения для генерации музыки - 2

Итоговая модель может генерировать композиции на разных языках и работает в мультиязычном режиме. Например, строчки песни могут быть сразу на трёх языках. В таком случае нейросеть сгенерирует корректную композицию.

Отмечается, что для запуска YuE необходимо довольно много свободной видеопамяти. Например, для запуска двух сессий (генерация одного куплета и одного припева) потребуется около 24 ГБ памяти. Для запуска четырёх и более сессий уже потребуется не менее 80 ГБ видеопамяти. Также отмечается, что генерации 30 секунд аудио на Nvidia H800 займёт 150 секунд, а на нескольких RTX 4090 — 360 секунд.

Код проекта опубликовали на GitHub. Помимо кода в репозитории есть инструкции по запуску и советы по составлению запросов. Примеры работы нейросети доступны на официальном сайте. Текст исследования авторы проекта опубликуют позже.

Автор: daniilshat

Источник

Рейтинг@Mail.ru
Rambler's Top100