La musique populaire suit souvent la forme d’un chœur en couplet. Les chœurs étant les sections les plus marquantes, il est utile de les détecter automatiquement. Ils peuvent être utilisés pour générer des «miniatures» ou pour générer des reflets émotionnels d’une pièce. Cependant, comme la plupart des méthodes actuelles ne sont pas supervisées, elles présentent de nombreuses limitations.
Une nouvelle étude propose un réseau de neurones qui prédit le «chorus» d’un extrait directement à partir de l’audio. Il n’utilise pas le contexte du reste de la chanson.
Un classificateur binaire prédit le «chorus» de chaque point dans une fenêtre et fait glisser cette fenêtre tout au long de la chanson pour obtenir une courbe de probabilité de chorus. Les courbes d’activation du chœur et des limites sont modélisées conjointement; par conséquent, la perte sur les signaux autour des limites est accentuée. Les expériences ont confirmé la supériorité du système proposé par rapport à plusieurs systèmes existants. Le modèle peut être développé pour détecter d’autres étiquettes telles que le couplet ou le solo.
Cet article présente une nouvelle approche supervisée pour détecter les segments de chœur dans la musique populaire. Les approches traditionnelles de cette tâche sont pour la plupart non supervisées, avec des pipelines conçus pour cibler une certaine qualité qui est supposée définir le «chorus», ce qui signifie généralement rechercher les sections les plus bruyantes ou les plus fréquemment répétées. Nous proposons d’utiliser un réseau de neurones convolutifs avec un objectif d’apprentissage multi-tâches, qui ajuste simultanément deux courbes d’activation temporelle: l’une indiquant le «chorus» en fonction du temps, et l’autre la localisation des frontières. Nous proposons également une méthode de post-traitement qui prend conjointement en compte les prédictions de chœur et de frontière pour produire une sortie binaire. Dans les expériences utilisant trois ensembles de données, nous comparons notre système à un ensemble d’implémentations publiques d’autres algorithmes de segmentation et de détection de chœur, et constatons que notre approche fonctionne bien mieux.
Document de recherche: Wang, J.-C., Smith, JBL, Chen, J., Song, X. et Wang, Y., «Détection de chœur supervisée pour la musique populaire utilisant un réseau neuronal convolutif et l’apprentissage multi-tâches», 2021. Lien: https://arxiv.org/abs/2103.14253