- BrainTools - https://www.braintools.ru -
Исследователи Гонконгского университета науки и технологии представили [1] открытую нейросеть для генерации музыки. Авторы проект называют свою разработку бесплатным аналогом Suno. Модель может генерировать инструментальные композиции и песни.
В исследовании отмечается, что в задачах генерации песен на основе текста всё ещё нет чёткого понимания, как решить некоторые проблемы. Например, во многих реализациях не получается сохранить характер композиции до самого конца, а ещё нейросеть искажает слова, чтобы они лучше ложились на музыку. Есть удачные проприетарные реализации, но у исследователей нет возможности узнать, какие подходы в них применяются.
Для решения этой проблемы исследователи разработали семейство моделей машинного обучения [2] YuE на базе языковой модели LLaMA. Нейросеть позволяет генерировать треки длительностью до пяти минут с согласованной музыкальной структурой. Для этого авторы проекта использовали аудиотокенизатор с улучшенным пониманием семантики для снижения затрат на обучение и текстовую цепочку мыслей для лучшей работы с контекстом. Для масштабируемости применили трёхступенчатый метод обучения.
Итоговая модель может генерировать композиции на разных языках и работает в мультиязычном режиме. Например, строчки песни могут быть сразу на трёх языках. В таком случае нейросеть сгенерирует корректную композицию.
Отмечается, что для запуска YuE необходимо довольно много свободной видеопамяти. Например, для запуска двух сессий (генерация одного куплета и одного припева) потребуется около 24 ГБ памяти [3]. Для запуска четырёх и более сессий уже потребуется не менее 80 ГБ видеопамяти. Также отмечается, что генерации 30 секунд аудио на Nvidia H800 займёт 150 секунд, а на нескольких RTX 4090 — 360 секунд.
Код проекта опубликовали [4] на GitHub. Помимо кода в репозитории есть инструкции по запуску и советы по составлению запросов. Примеры работы нейросети доступны на официальном сайте [1]. Текст исследования авторы проекта опубликуют позже.
Автор: daniilshat
Источник [5]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/11847
URLs in this post:
[1] представили: https://map-yue.github.io/
[2] обучения: http://www.braintools.ru/article/5125
[3] памяти: http://www.braintools.ru/article/4140
[4] опубликовали: https://github.com/multimodal-art-projection/YuE
[5] Источник: https://habr.com/ru/news/879264/?utm_source=habrahabr&utm_medium=rss&utm_campaign=879264
Нажмите здесь для печати.