Qu'est-ce que MusicGen de Meta et comment l'utiliser ?

Sur la base d’invites de texte, MusicGen de Meta peut créer de brèves nouvelles compositions musicales qui sont éventuellement alignées sur une mélodie existante.

MusicGen est construit sur un modèle Transformer, comme le sont la majorité des modèles de langage utilisés aujourd’hui. MusicGen prédit le segment suivant d’un morceau de musique d’une manière similaire à la façon dont un modèle de langage prédit les lettres suivantes dans une phrase. Les chercheurs utilisent EnCodec de Meta audio tokenizer pour décomposer les données audio en plus petits morceaux. MusicGen est une approche rapide et efficace en une seule étape qui effectue le traitement des jetons en parallèle.

Pour l’entraînement, l’équipage a utilisé 20 000 heures de la musique autorisée. Ils ont utilisé 10 000audio de haute qualité enregistrements d’un jeu de données interne ainsi que des données musicales Shutterstock et Pond5, notamment.

Music Gen : Qu’est-ce que c’est ?

Comme la plupart des modèles de langage utilisés aujourd’hui, MusicGen est construit à l’aide d’un modèle Transformer. Semblable à la façon dont un modèle de langage prédit les lettres suivantes dans une phrase, MusicGen prédit la section suivante d’un morceau de musique.

Les données audio sont divisées en bits plus petits à l’aide du tokenizer audio EnCodec de Meta par les chercheurs. MusicGen est une méthode en une seule étape qui traite les jetons rapidement et efficacement en parallèle.

Outre l’efficacité de la conception et la rapidité de production, MusicGen se distingue par sa capacité à gérer à la fois le texte et les repères musicaux. La musique du fichier audio suit le style de base établi dans le texte.

Vous ne pouvez pas exactement changer la direction de la mélodie pour l’entendre, par exemple, dans d’autres genres musicaux. Il ne sert que de guide général pour la génération et n’est pas exactement reproduit dans la sortie.

Malgré le fait que de nombreux autres modèles exécutent la génération de texte, la synthèse vocale, les visuels générés et même de petits films, il n’y a pas eu beaucoup d’exemples de production musicale de haute qualité qui ont été rendus accessibles au public.

MusicGen : Comment l’utiliser ?

Les utilisateurs peuvent tester MusicGen en utilisant le API de visage étreignant, mais selon le nombre d’utilisateurs qui l’utilisent en même temps, cela peut prendre un certain temps pour produire de la musique. Vous pouvez mettre en place votre propre exemple du modèle en utilisant le site Web Hugging Face pour des résultats beaucoup plus rapides. Vous pouvez télécharger le code et l’exécuter vous-même si vous disposez des connaissances et des outils nécessaires.

Voici comment essayer la version en ligne si, comme la majorité des gens, vous souhaitez :

Lancement un navigateur Web.
Visitez la page Web pour Visage étreignant.
En haut à droite, choisissez Les espaces.
Rechercher “MusicGen” dans la boite.
Localisez celui qui Facebook publié.
Dans la zone de gauche, tapez votre invite.
Choisir “Générer”.

C’est tout ce que vous devez savoir !

MusicGen bat MusicLM d’un cheveu

Trois tailles distinctes de modèle—300 millions (300M), 1,5 milliard (1,5B), et 3,3 milliards (3.3B) paramètres – ont été testés par les auteurs de l’étude. Le 1,5 milliard Le modèle de paramètres a été jugé le meilleur par les humains, mais ils ont découvert que les modèles plus grands généraient des sons de meilleure qualité. D’autre part, le 3,3 milliards Le modèle de paramètre fonctionne plus correctement lors de la correspondance de l’entrée de texte avec la sortie audio.

MusicGen obtient de meilleurs résultats sur les mesures objectives et subjectives qui évaluent à quel point la musique correspond aux mots et à quel point la composition est crédible par rapport à d’autres modèles musicaux comme Riffusion, Mousai, MusicLM et Noise2Music. En général, les modèles sont légèrement meilleurs que MusicLM de Google.

Le code et les modèles ont été mis à disposition par Meta en open source sur Github, et l’utilisation commerciale est autorisée. Il y a une démo sur Visage étreignant.

Savez-vous ce que sont les liens partagés ChatGPT ?

Source: Qu’est-ce que MusicGen de Meta et comment l’utiliser ?