Pour la première fois, l’intelligence artificielle (IA) a pu atteindre une plus grande précision que les humains en reconnaissant les conversations quotidiennes. À l’avenir, la technologie pourrait servir de base à des traductions automatiques.
Des assistants numériques tels qu’Alexa, Cortana ou Siri permettent la transcription automatisée de textes parlés et de traductions. À cette fin, les systèmes de reconnaissance vocale utilisent des réseaux de neurones artificiels qui attribuent des signaux acoustiques à des syllabes et des mots individuels à l’aide de bibliothèques. Les résultats sont désormais très bons lorsque les assistants sont adressés directement ou lorsqu’un texte est lu à haute voix. Cependant, dans la vie de tous les jours, des problèmes surviennent encore souvent qui, comme l’a montré une étude récemment menée par la Ruhr-Universität-Bochum (RUB), peuvent également conduire à l’activation involontaire d’assistants vocaux par des mots-indicateurs mal compris.
Les conversations entre plusieurs personnes posent également encore fréquemment des problèmes à l’heure actuelle. Selon Alex Waibel du Karlsruhe Institute of Technology (KIT), «il y a des interruptions, des bégaiements, des sons de remplissage comme« ah »ou« hm »et aussi des rires ou de la toux quand les gens se parlent. De plus, comme l’explique Waibel, «les mots sont souvent prononcés de manière peu claire. En conséquence, même les humains ont des problèmes pour créer une transcription exacte d’un tel dialogue informel. Cependant, l’intelligence artificielle (IA) pose des difficultés encore plus grandes.
Les conversations quotidiennes problématiques pour l’IA
Selon un pré-imprimé publié par arXiv, les scientifiques de Waibel ont maintenant réussi à développer une IA qui transcrit les conversations quotidiennes plus rapidement et mieux que les humains. Le nouveau système est basé sur une technologie qui traduit en temps réel les cours universitaires de l’allemand et de l’anglais. Les réseaux dits codeurs-décodeurs sont utilisés pour analyser les signaux acoustiques et leur attribuer des mots. Selon Waibel, «la reconnaissance de la parole spontanée est l’élément le plus important de ce système car les erreurs et les retards rendent rapidement la traduction inintelligible.
Précision accrue et latence réduite
Maintenant, les scientifiques de KIT ont considérablement amélioré le système et, en particulier, réduit considérablement la latence. Waibel et son équipe ont utilisé une approche basée sur la probabilité de certaines combinaisons de mots et l’ont liée à deux autres modules de reconnaissance.
Lors d’un test standardisé, le nouveau système de reconnaissance vocale a écouté des extraits d’une collection d’environ 2 000 heures de conversations téléphoniques, que le système devait transcrire automatiquement. Selon Waibel, «le taux d’erreur humaine ici est d’environ 5,5%. L’IA, en revanche, n’a atteint qu’un taux d’erreur de 5,0%, surpassant les humains pour la première fois en reconnaissant les conversations quotidiennes. Le temps de latence, c’est-à-dire le délai entre l’arrivée du signal et le résultat, est également très rapide à 1,63 seconde en moyenne mais ne se rapproche pas encore tout à fait de la latence moyenne de 1 seconde d’un être humain.
À l’avenir, le nouveau système pourrait être utilisé, par exemple, comme base pour des traductions automatiques ou pour d’autres scénarios dans lesquels les ordinateurs doivent traiter le langage naturel.