La détection de textes générés par l’IA est depuis longtemps un défi pour les chercheurs et les développeurs. Avec l’évolution rapide des grands modèles linguistiques (LLM), tels que Gemini Advanced de Google et GPT-4o d’OpenAI, la capacité à produire des textes de type humain est devenue de plus en plus sophistiquée.
Cependant, un nouvelle étude Une étude réalisée par des chercheurs de l’Université de Tübingen et de l’Université Northwestern offre une avancée décisive dans l’identification du contenu créé par l’IA.
En se concentrant sur l’augmentation soudaine du vocabulaire spécifique dans les écrits scientifiques, ils ont développé une méthode permettant de détecter l’utilisation de LLM avec une précision surprenante. Cette technique, inspirée d’études sur la pandémie qui ont mesuré la surmortalité, révèle comment les changements dans l’utilisation des mots peuvent signaler la présence de texte généré par l’IA.
Quels sont les mots qui révèlent le contenu de l’IA ?
Pour mesurer ces changements, l’équipe a examiné la fréquence de chaque mot chaque année. En comparant la fréquence attendue des mots, basée sur les tendances d’avant 2023, à l’utilisation réelle en 2023 et 2024, ils ont identifié une augmentation spectaculaire de certains termes. Par exemple, le mot « delves » est apparu 25 fois plus fréquemment que prévu dans les résumés de 2024. De même, les termes « showcase » et « underscores » ont vu leur utilisation multipliée par neuf.
Voici les mots les plus utilisés dans les textes générés par l’IA avec leurs taux d’augmentation d’utilisation correspondants :
- Plonge – augmentation de 25 fois
- Présentation – augmentation de 9 fois
- Souligne – augmentation de 9 fois
- Potentiel – 4,1 points de pourcentage d’augmentation
- Résultats – augmentation de 2,7 points de pourcentage
- Crucial – augmentation de 2,6 points de pourcentage
- À travers – augmentation significative (taux exact non précisé)
- En plus – augmentation significative (taux exact non précisé)
- Complet – augmentation significative (taux exact non précisé)
- Améliorer – augmentation significative (taux exact non précisé)
- Exposé – augmentation significative (taux exact non précisé)
- Connaissances – augmentation significative (taux exact non précisé)
- Notamment – augmentation significative (taux exact non précisé)
- Particulièrement – augmentation significative (taux exact non précisé)
- Dans – augmentation significative (taux exact non précisé)
Ces mots sont devenus des signes révélateurs de l’implication de l’IA, apparaissant beaucoup plus fréquemment que prévu. Si le langage évolue naturellement, de tels changements brusques sont inhabituels et souvent liés à des événements mondiaux majeurs.
Dans ce cas, l’utilisation généralisée des LLM a conduit à un changement notable dans le vocabulaire de la littérature scientifique.
Inspiration tirée de l’analyse de la pandémie
L’approche des chercheurs s’inspire largement des techniques utilisées pendant la pandémie de COVID-19. Tout comme les décès excédentaires ont été calculés en comparant les décès observés aux données historiques, cette étude compare l’utilisation actuelle des mots aux tendances historiques pour identifier les anomalies. Ils ont analysé plus de 14 millions de résumés scientifiques publiés sur PubMed de 2010 à 2024, identifiant une augmentation significative de certains mots à partir de fin 2022, coïncidant avec l’adoption plus large des LLM.
Les chercheurs ont noté que l’augmentation du nombre de mots spécifiques, appelés « mots marqueurs », est un indicateur clair de l’utilisation du LLM. Ce phénomène diffère des changements de vocabulaire antérieurs liés à des événements tels que la pandémie de COVID-19, qui a vu une augmentation du langage à forte teneur nominale.
En revanche, la période post-LLM a vu une augmentation des verbes, des adjectifs et des adverbes. Cette évolution met en évidence la manière dont le texte généré par l’IA modifie subtilement la texture et le style de l’écriture.
En identifiant ces mots marqueurs, les chercheurs estiment que au moins 10 % des résumés scientifiques en 2024 ont été générés ou significativement aidés par des LLM. Cette estimation est probablement prudente, car tous les textes assistés par l’IA ne contiennent pas ces marqueurs spécifiques. Néanmoins, la présence de ces mots fournit une mesure fiable pour détecter l’influence de l’IA dans la rédaction universitaire.
Tendances géographiques dans l’utilisation du LLM
L’étude a également révélé des variations géographiques dans l’adoption des LLM. Des pays comme la Chine, la Corée du Sud et Taiwan ont montré une fréquence plus élevée de mots marqueurs dans les articles scientifiques, ce qui indique que les LLM sont particulièrement utiles aux locuteurs non natifs de l’anglais. Ces outils aident à affiner et à améliorer leur rédaction, la rendant plus soignée et prête à être publiée.
À l’inverse, les anglophones natifs peuvent être plus aptes à reconnaître et à éliminer ces marqueurs, dissimulant ainsi leur utilisation de l’IA. Cette différence suggère que si les LLM sont largement utilisés dans le monde entier, leur impact est plus prononcé dans les régions où l’anglais n’est pas la langue principale.
Crédit de l’image en vedette: Freepik
Source: Évitez ces mots à tout prix si vous ne voulez pas vous faire prendre en train d’utiliser l’IA