Top.Mail.Ru
Истории

Не только картинки и видео: нейросеть обучили генерировать музыку по текстовым подсказкам

Истории
Дарья Сидорова
Дарья Сидорова

Редактор направления «Истории»

Дарья Сидорова

ИИ продолжает осваивать новые виды творческой деятельности. Нейросеть Riffusion, созданная разработчиками Сетом Форсгреном и Айком Мартиросом, способна генерировать мелодии по текстовым подсказкам. Для этого она создает визуальное представление звука, а затем преобразует его в аудио.

Не только картинки и видео: нейросеть обучили генерировать музыку по текстовым подсказкам

Диффузия — метод машинного обучения, который позволяет создавать изображения. Он используется в таких известных моделях, как DALL-E 2 и Stable Diffusion. Этот метод эффективен в самых разных контекстах и легко поддается тонкой настройке, при которой наиболее обученная модель получает множество контента определенного типа, чтобы производить больше подобных образцов.

Тонкую настройку можно произвести, например, на акварели или фотографиях автомобилей. В таком случае модель будет лучше всего справляться с генерацией изображений в одном из этих жанров.

Заставь искусственный интеллект самообучаться и совершенствоваться – выбирай онлайн-курсы в каталоге курсов по машинному обучению.

Для своего хобби-проекта Riffusion Форсгрен и Мартирос произвели тонкую настройку Stable Diffusion на спектрограммах — визуальных представлениях звука, показывающих амплитуду различных частот во времени. Это довольно точное систематическое представление звука, которое можно снова преобразовать в аудио, выполнив тот же процесс в обратном порядке.

Форсгрен и Мартирос создали спектрограммы для множества музыкальных треков и добавили к ним соответствующие пометки: blues guitar (блюз на гитаре), jazz piano (джаз на фортепиано), afrobeat (афробит) и прочие. Эта коллекция изображений дала модели хорошее представление о том, как «выглядят» определенные звуки, а также как их можно воссоздавать и комбинировать.

Диффузия

Процесс диффузии. GIF-изображение: Сет Форсгрен и Айк Мартирос

Модель смогла генерировать спектрограммы, которые при преобразовании в звук довольно хорошо соответствовали таким подсказкам, как funky piano (фортепиано в стиле фанк) и jazzy saxophone (джаз на саксофоне).

Спектрограмма

Фото в тексте: Сет Форсгрен и Айк Мартирос

Спектрограммы генерируются в стандартном для Stable Diffusion разрешении — 512 x 512 пикселей. Такое квадратное изображение представляет лишь короткий отрывок. Для трехминутной песни потребовался бы гораздо более широкий прямоугольник (например, 512 x 10000 пикселей), но ограничения системы не позволяют создавать такую спектрограмму.

Немного поэкспериментировав, Форсгрен и Мартирос воспользовались особенностью структуры больших моделей, подобных Stable Diffusion, а именно «скрытым пространством». Это своего рода нейтральная территория между более четко определенными узлами.

Допустим, что одна из областей модели представляет кошек, а другая — собак. Эти области как раз и разделяет скрытое пространство, которое, если попросить ИИ нарисовать картину, выдало бы некое существо, объединяющее в себе кошку и собаку.

В случае Riffusion создатели обнаружили, что нейросеть может создавать мелодию с довольно постепенным и естественным переходом между битами, если дать ей две подсказки, такие как church bells (колокольный звон) и electronic beats (электронные биты).

В теории можно генерировать и более длинные отрывки, но, по словам Форсгрена, разработчики и «не пытались создать классическую трехминутную песню с повторяющимися припевами и куплетами».

Тем не менее Форсгрен считает, что это возможно. Например, если построить модель более высокого уровня для структуры песни, а отдельные отрывки генерировать при помощи модели более низкого уровня, или же обучить нейросеть на изображениях полных песен.

Riffusion — скорее демонстрация возможностей ИИ, чем инструмент, нацеленный на переизобретение музыки. Как утверждает Форсгрен, вместе с Мартиросом им было просто приятно наблюдать за тем, как пользователи взаимодействуют с разработкой и создают ее новые версии. Вы и сами можете протестировать модель на сайте Riffusion.com.

Источник.

Фото на обложке: Iaremenko Sergii / Shutterstock

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе последних новостей и событий!

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Сам себе Моцарт и Дрейк: подборка музыкальных нейросетей
  2. 2 Где слушать музыку в России: список музыкальных сервисов
  3. 3 Кому принадлежит нейромузыка и как её использовать в коммерческих целях, чтобы не попасть в суд
  4. 4 Правила аудиобрендинга, которые помогут компаниям избежать штрафов
  5. 5 «Прыжок на несколько поколений назад»: что происходит с российскими стримингами
FutureFood
Кто производит «альтернативную» еду
Карта