Reddit a apporté un grand changement cette semaine pour protéger son contenu contre toute prise sans autorisation. Ils ont mis à jour quelque chose appelé fichier robots.txt, qui indique aux programmes informatiques (comme ceux utilisés par les moteurs de recherche) s’ils peuvent consulter un site Web. Ce fichier est important pour permettre aux moteurs de recherche de vous montrer des sites Web lorsque vous recherchez quelque chose.
Mais aujourd’hui, avec l’essor de l’intelligence artificielle, certaines entreprises récupèrent le contenu de sites Web comme Reddit pour entraîner leurs systèmes d’IA sans demander ni créditer les créateurs originaux. C’est devenu un gros problème car cela ne respecte pas les personnes qui ont créé le contenu ou les sites Web qui l’hébergent.
Que fait Reddit ?
La mise à jour par Reddit du fichier robots.txt vise à contrôler la manière dont son contenu est utilisé. Ils vont également limiter et bloquer l’accès des programmes informatiques et des robots inconnus à leur site s’ils ne suivent pas les règles de Reddit ou n’ont pas l’autorisation d’utiliser le contenu.
Reddit affirme que ces changements n’affecteront pas la plupart des personnes ou les bonnes organisations comme les chercheurs ou les groupes qui sauvegardent l’historique Internet (comme Internet Archive). Au lieu de cela, ils tentent d’empêcher les sociétés d’IA d’utiliser le contenu de Reddit sans autorisation. Cependant, ces programmes d’IA pourraient encore ignorer les règles de Reddit.
Enquête récente et réponses
Cette annonce fait suite à un rapport de Wired, qui a révélé qu’une société de recherche basée sur l’intelligence artificielle appelée Perplexity récupérait du contenu de sites Web, même si le fichier robots.txt lui interdisait de le faire. Le PDG de Perplexity a fait valoir que ces règles ne constituaient pas des obligations légales, ce qui a déclenché un débat sur la manière dont les sites Web peuvent protéger leur contenu.
Les données Reddit appartiennent à Google, pour l’instant
Les nouvelles règles de Reddit n’affecteront pas les entreprises qui ont déjà des accords avec lui. Par exemple, Reddit a conclu un accord de 60 millions de dollars avec Google, qui permet à ce dernier d’utiliser les données de Reddit pour ses projets d’IA. Cela montre que Reddit est prudent quant à ceux qui peuvent utiliser ses données et veut s’assurer qu’il s’agit de partenaires de confiance.
“Tous ceux qui utilisent le contenu de Reddit doivent suivre nos règles pour protéger les utilisateurs de Reddit”, a déclaré Reddit dans un communiqué. article de blog. “Nous choisissons soigneusement avec qui nous travaillons et avons confiance pour l’accès au contenu Reddit.”
Regarder vers l’avant
Ce changement de Reddit fait partie de leurs efforts pour contrôler la manière dont leurs données sont utilisées, notamment par les entreprises à des fins commerciales. Cela montre une tendance croissante parmi les sites Web à protéger leur contenu à l’ère de l’IA et du Big Data.
La démarche de Reddit envoie un message clair : même si l’intelligence artificielle a un grand potentiel, il est essentiel de respecter la provenance des données et d’obtenir leur autorisation. À mesure que l’Internet évolue, les actions de Reddit pourraient influencer la manière dont d’autres sites Web protègent leur contenu et les droits des utilisateurs.
Toutes les images sont générées par Eray Eliaçık/Bing
Source: Reddit vous fera payer ses données