На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Digitalocean.ru

20 подписчиков

Свежие комментарии

  • LEV Skoroxod
    Виниловые пластинки возвращаются???? Но то что их покупают не 100% Россиян, и даже не 50, То это как пить дать! А апп...Винил попал под с...
  • Астон Мартин
    белорусы молодцыСмягчено наказани...
  • Михаил Е
    Ждём МП42БНа «Эльбрусе» сде...

Нейросеть научили генерировать звуки. По изображению или видеоролику

Канадские ученые из Университета Торонто представили нейросеть See-2-Sound для генерации звуков окружения по картинке или кадрам видеоролика

Разработанная исследователями модель машинного обучения не только создает подходящую дорожку, но и расставляет источники звука в пространстве для создания эффекта присутствия.

See-2-Sound работает в несколько этапов. Сначала нейросеть получает изображение, анимацию или видеоролик, после чего анализирует источник.

Алгоритм пытается понять, какие объекты могут издавать такие звуки и на основе полученных данных генерирует саундтрек, причем для каждого источника создается собственная дорожка. Сгенерированные аудиодорожки расставляются в виртуальной комнате относительно пользователя, что создает объемное звучание и эффект присутствия в кадре.

На выходе у нейросети получается аудиофайл формата 5.1. Нейросеть можно установить по инструкции в репозитории или запустить в контейнере. Разработчики опубликовали текст работы и исходный код, а на сайте See-2-Sound доступны некоторые примеры. На платформе Hugging Face можно испытать работу нейросети на собственных входных данных.

Здесь мы рассказываем, что такое дипфейки и как они устроены:

Unsplash

 

Ссылка на первоисточник

Картина дня

наверх