Les scientifiques ont créé un nouveau réseau de neurones, qui peut utiliser l’IA pour chanter à partir d’échantillons de parole. L’algorithme des développeurs chinois peut synthétiser un enregistrement du chant d’une personne basé sur un enregistrement du discours habituel de la personne, ou l’exécuter à l’inverse et synthétiser la parole basée sur le chant. Un article décrivant le développement, la formation et le test d’un algorithme a été publié sur arXiv.org.
Ces dernières années, le développement d’algorithmes de réseaux neuronaux pour la synthèse vocale, comme WaveNet, a permis la création de systèmes difficiles à distinguer des personnes réelles. Par exemple, en 2018, Google a montré un assistant vocal pour réserver des sièges qui peuvent non seulement parler de façon réaliste, mais également insérer des sons humains qui rendent la parole vérifiable, par exemple, «um». En conséquence, l’entreprise a également dû apprendre à l’algorithme pour avertir au début d’une conversation qu’il ne s’agit pas d’une personne.
Comme dans le cas des autres algorithmes de réseau neuronal, le succès des systèmes de synthèse vocale n’est en grande partie pas lié à leur architecture, mais surtout à la grande quantité de données disponibles pour la formation. La création d’un système pour synthétiser le chant est une tâche apparemment similaire, mais en fait, elle est beaucoup plus compliquée en raison des quantités considérablement plus faibles de données disponibles.
De nombreux développeurs travaillant sur des systèmes de génération de chant ont récemment choisi de réduire le volume d’échantillons de chant pour enseigner l’algorithme, et maintenant un groupe de chercheurs chinois dirigé par Dong Yu de Tencent a créé un système capable de créer des enregistrements audio de chant réalistes à partir de la parole échantillons.
L’algorithme est basé sur le développement précédent de Tencent, le réseau de neurones DurIAN, conçu pour synthétiser des vidéos avec un présentateur parlant basé sur le texte. Maintenant, ils mettent une nouvelle unité de reconnaissance vocale devant DuarIAN, qui crée des phonèmes basés sur l’échantillon audio.
Les auteurs ont formé l’algorithme sur deux ensembles de données propriétaires comprenant une heure et demie de chant et 28 heures de parole. Après la formation, ils ont testé l’algorithme sur 14 volontaires qui ont évalué le réalisme du chant synthétisé et la similitude. En conséquence, l’un des tests a obtenu 3,8 points de réalisme et 3,65 points de similitude. Les auteurs publié échantillons du travail du réseau de neurones.