Как мы воспринимаем музыку? Очевидный ответ — с помощью слуха. Правильный ответ — с помощью слуха и зрения.
Восприятие мелодии во многом формирует картина скрипача, склонившегося к скрипке, или пальцев пианиста, порхающих над роялем. А во время оркестрового выступления мы невольно следим за движениями музыкантов для того, чтобы лучше различить нюансы каждой из исполняемых партий.
Зная эти особенности человеческого восприятия, ученые MIT-IBM Watson AI Lab задались вопросом: что будет если поручит задачу, связанную с дифференциацией звука, компьютеру? Так появился новый алгоритм Music gesture — инструмент, позволяющий идентифицировать базовые движения музыкантов во время игры и соотнести их с темпом отдельных партий. Инновационная разработка была официально представлена в июне на конференции CVPR'20 (Computer Vision Pattern Recognition).
"Ключевые двигательные точки представляют собой мощную структурную информацию. Её можно использовать для повышения способностей искусственного интеллекта в области дифференциации различных звуков". — заявляет ведущий исследователь лаборатории IBM Чуанг Ган.
В основе нового алгоритма лежит предыдущая разработка MIT — сервис PixelPlayer. В базовой версии это алгоритм, создающий мультиформатное видео. Пользователь получает возможность прямо во время просмотра записи кликнуть по любому инструменту для того, чтобы сделать его звучание громче или тише.
Новая версия PixelPlayer, представленная на CVPR'20, использует детализированные данные с датчиков движений. Эффективность алгоритма демонстрирует игра двух музыкантов, исполняющих практически идентичные мелодии. Система сопоставляет карту движений каждого исполнителя с темпом звучания музыки и безошибочно выделяет отдельные партии.
"Такой подход соответствует механизму естественного обучения человека, — отмечает профессор MIT Антонио Торральба, являющийся одним из соавторов исследований. — Мельтисенсорное обучение является основной для создания новых усложненных систем искусственного интеллекта, способных решать задачи высочайшего уровня",
В MIT отмечают, что процесс обучения моделей, основанный на сочетании данных различного типа — в данном случае, аудио и видеоданных, — позволяет расширить область применения инструментов идентификации звука. ИИ можно научить, например, распознавать географические координаты движущегося автомобиля по отдаленному шуму мотора. Такой подход может эффективно применять при разработке беспилотников: он позволит усилить работу датчиков автоматической детекции и повысить безопасность движения в ночное время или в условиях плохой видимости.
Источник:
http://news.mit.edu/2020/music-gesture-artificial-intelligence-identifies-melody-by-musician-body-language-0625