Étude d'Oxford : des images malveillantes peuvent contrôler les agents d'IA

Une étude récente menée par des chercheurs de l’Université d’Oxford a révélé une vulnérabilité potentielle des agents d’IA, démontrant comment des images malveillantes avec des manipulations subtiles de pixels peuvent être utilisées pour contrôler ces agents et compromettre la sécurité informatique. Contrairement aux chatbots, les agents IA effectuent des actions sur l’ordinateur d’un utilisateur, comme ouvrir des onglets, remplir des formulaires et cliquer sur des boutons, ce qui en fait une partie importante de la prochaine vague de technologie IA qui devrait devenir courante d’ici 2025.

La recherche, détaillée dans une prépublication publiée sur arXiv.org, montre que les images, y compris les fonds d’écran, les publicités, les PDF et les publications sur les réseaux sociaux, peuvent être intégrées à des commandes invisibles à l’œil humain mais capables de manipuler des agents d’IA. Selon Yarin Gal, professeur agrégé d’apprentissage automatique à Oxford et co-auteur de l’étude, une image modifiée, telle qu’une « photo de Taylor Swift sur Twitter », pourrait inciter un agent d’IA à effectuer des actions malveillantes. Ces actions pourraient inclure le retweet de l’image et l’envoi des mots de passe de l’utilisateur, infectant potentiellement d’autres ordinateurs qui consultent le flux Twitter compromis.

Bien qu’aucun incident réel de telles attaques n’ait été signalé, l’étude sert d’avertissement aux utilisateurs et aux développeurs d’agents d’IA sur les risques potentiels. Philip Torr, un autre co-auteur de l’étude, souligne l’importance de la sensibilisation et du déploiement judicieux de systèmes agentiques pour atténuer ces vulnérabilités.

La vulnérabilité réside dans le fait que les agents d’IA s’appuient sur un traitement visuel pour interpréter et interagir avec l’écran de l’ordinateur. Ces agents prennent des captures d’écran répétées pour analyser le bureau et déterminer les actions à effectuer. Les commandes malveillantes sont intégrées en modifiant certains pixels de l’image, imperceptibles pour les humains mais peuvent être détectés et mal interprétés par le système de traitement visuel de l’agent IA.

Lukas Aichberger, l’auteur principal de l’étude, explique que les systèmes d’IA open source sont particulièrement vulnérables car les attaquants peuvent accéder au code sous-jacent et l’examiner pour concevoir des attaques efficaces. En comprenant comment l’IA traite les données visuelles, les attaquants peuvent manipuler les images pour transmettre des ordres malveillants. Par exemple, lorsqu’un utilisateur humain voit une photo de célébrité, l’ordinateur peut l’interpréter comme une commande de partage de données personnelles.

Alasdair Paren, un autre co-auteur, note que le processus implique d’ajuster légèrement de nombreux pixels pour produire le résultat souhaité lorsque le modèle voit l’image. Cette manipulation exploite la façon dont les ordinateurs traitent les informations visuelles différemment des humains. Alors que les humains reconnaissent les objets en fonction de caractéristiques telles que les oreilles tombantes et le nez mouillé, les ordinateurs décomposent les images en pixels et recherchent des modèles numériques. Même de petits changements dans ces modèles numériques peuvent amener l’ordinateur à mal interpréter l’image.

La recherche met en évidence l’importance des fonds d’écran en tant que vecteur d’attaque potentiel. Étant donné que les agents IA prennent continuellement des captures d’écran du bureau, l’image d’arrière-plan est toujours présente et peut être utilisée pour exécuter des commandes cachées. Les chercheurs ont découvert que même une petite zone de pixels modifiés dans le cadre suffit à faire dévier l’agent de sa trajectoire. De plus, la commande cachée peut survivre au redimensionnement et à la compression, la rendant persistante dans différents paramètres d’affichage.

Les attaquants peuvent également enchaîner plusieurs images malveillantes pour créer des attaques en plusieurs étapes. L’image initiale peut diriger l’agent vers un site Web hébergeant une autre image malveillante, ce qui déclenche d’autres actions. Ce processus peut être répété plusieurs fois, permettant aux attaquants de contrôler l’agent et de le diriger vers différents sites Web conçus pour coder diverses attaques, selon Aichberger.

L’équipe de recherche espère que leurs résultats encourageront les développeurs à mettre en œuvre des mesures de protection avant que les agents d’IA ne se généralisent. Adel Bibi, co-auteur de l’étude, suggère que comprendre comment renforcer les attaques peut éclairer le développement de mécanismes de défense. Le recyclage des modèles avec ces correctifs plus puissants peut les rendre plus robustes et fournir une couche de défense.

Même les systèmes d’IA fermés ne sont pas à l’abri de ces vulnérabilités. Paren souligne que s’appuyer sur « la sécurité par l’obscurité » n’est pas suffisant et qu’une compréhension approfondie du fonctionnement de ces systèmes est nécessaire pour identifier et traiter les vulnérabilités.

Gal prédit que les agents IA deviendront monnaie courante au cours des deux prochaines années, soulignant l’urgence de répondre à ces problèmes de sécurité. L’équipe vise à terme à encourager les développeurs à créer des agents capables de se protéger et de refuser de recevoir des ordres en cas de contenu suspect à l’écran, quelle que soit sa source.

En résumé, l’étude de l’Université d’Oxford révèle une vulnérabilité importante des agents d’IA, démontrant comment des images malveillantes avec des pixels manipulés peuvent être utilisées pour contrôler ces agents et compromettre csécurité informatique. La recherche souligne la nécessité pour les développeurs d’être conscients de ces risques et de mettre en œuvre des mécanismes de défense robustes pour se protéger contre de telles attaques, à mesure que la technologie des agents d’IA continue de progresser.

Les découvertes des chercheurs soulignent l’importance de mesures de sécurité proactives dans le développement et le déploiement d’agents d’IA. En comprenant les vecteurs d’attaque et les vulnérabilités potentiels, les développeurs peuvent créer des systèmes plus sécurisés et plus résilients qui protègent les utilisateurs contre les acteurs malveillants. L’étude constitue une contribution précieuse au domaine de la sécurité de l’IA, en fournissant des informations et des recommandations pour atténuer les risques associés à la technologie des agents d’IA.

Les implications de cette recherche s’étendent au-delà des utilisateurs individuels jusqu’aux organisations et industries qui s’appuient sur des agents d’IA pour diverses tâches. À mesure que les agents d’IA s’intègrent de plus en plus dans la vie quotidienne, le risque de perturbations et de dommages généralisés dus à des attaques malveillantes augmente. Il est donc crucial que les parties prenantes accordent la priorité à la sécurité et travaillent en collaboration pour élaborer et mettre en œuvre des garanties efficaces.

Les résultats de l’étude soulignent également la nécessité de poursuivre la recherche et le développement dans le domaine de la sécurité de l’IA. À mesure que la technologie de l’IA évolue, de nouvelles vulnérabilités et vecteurs d’attaque apparaîtront, nécessitant des efforts continus pour les identifier et y remédier. En gardant une longueur d’avance sur les menaces potentielles, les chercheurs et les développeurs peuvent garantir que les agents d’IA restent un outil sûr et fiable pour les utilisateurs.

Outre les solutions techniques, l’étude souligne également l’importance de la sensibilisation et de l’éducation des utilisateurs. Les utilisateurs doivent être informés des risques potentiels associés aux agents d’IA et recevoir des conseils sur la manière de se protéger. Cela implique d’être prudent quant aux images qu’ils visualisent et avec lesquelles ils interagissent, ainsi que de comprendre les fonctionnalités et les paramètres de sécurité de leurs agents IA.

L’étude de l’Université d’Oxford vient à point nommé rappeler l’importance de la sécurité à l’ère de l’IA. Alors que la technologie de l’IA continue de progresser et de s’intégrer de plus en plus dans nos vies, il est essentiel de donner la priorité à la sécurité et de travailler en collaboration pour relever les défis et garantir que l’IA reste une force du bien.

La vulnérabilité identifiée dans l’étude est particulièrement préoccupante compte tenu de la prévalence croissante des agents d’IA dans diverses applications. De la gestion des boîtes de réception de courrier électronique à l’automatisation des tâches informatiques de routine, les agents IA font désormais partie intégrante de la vie quotidienne de nombreuses personnes. Cette adoption généralisée en fait une cible attrayante pour les acteurs malveillants cherchant à exploiter les vulnérabilités et à obtenir un accès non autorisé à des informations sensibles.

Le fait que l’attaque puisse être menée à travers des images apparemment inoffensives, telles que des fonds d’écran et des publications sur les réseaux sociaux, souligne encore davantage la nature insidieuse de la menace. Les utilisateurs peuvent ignorer que les images qu’ils visualisent contiennent des commandes cachées susceptibles de compromettre leurs systèmes informatiques. Cela met en évidence la nécessité de mesures de sécurité robustes capables de détecter et de prévenir de telles attaques, même lorsqu’elles sont déguisées en contenu inoffensif.

La recommandation des chercheurs de recycler les modèles d’IA avec des correctifs plus puissants est une approche prometteuse pour atténuer la vulnérabilité. En exposant les modèles d’IA à un plus large éventail d’images malveillantes et en les entraînant à reconnaître et à résister à ces attaques, les développeurs peuvent créer des systèmes plus résilients et mieux équipés pour se protéger contre les manipulations au niveau des pixels. Cette approche s’aligne sur la tendance plus large de la formation contradictoire dans le domaine de la sécurité de l’IA, qui implique de former des modèles pour résister aux attaques d’exemples contradictoires conçus pour les tromper.

Cependant, le recyclage des modèles d’IA n’est pas une solution miracle et d’autres mesures de sécurité sont également nécessaires. Les développeurs doivent également se concentrer sur la mise en œuvre de techniques robustes de validation et de nettoyage des entrées pour empêcher les données malveillantes de pénétrer dans le système. Cela implique d’examiner attentivement les images et autres sources de données pour identifier et supprimer toute commande cachée ou contenu malveillant. De plus, les développeurs doivent mettre en œuvre des mécanismes d’authentification et d’autorisation forts pour garantir que seuls les utilisateurs autorisés peuvent accéder aux agents IA et les contrôler.

Les résultats de l’étude ont également des implications pour le développement de cadres d’éthique et de gouvernance de l’IA. À mesure que la technologie de l’IA devient de plus en plus puissante et omniprésente, il est essentiel d’établir des lignes directrices éthiques et des structures de gouvernance claires pour garantir que l’IA soit utilisée de manière responsable et d’une manière qui profite à la société. Cela implique de s’attaquer aux risques de sécurité associés à l’IA et de mettre en œuvre des mesures pour empêcher que l’IA soit utilisée à des fins malveillantes.

Étude d’Oxford : des images malveillantes peuvent contrôler les agents d’IA

Related Stories

OpenAI a approuvé le lancement public des modèles GPT-5.6 le 9 juillet

Meta lance un outil pour détecter les images générées par l’IA avec un filigrane invisible

Claude Cowork peut désormais exécuter des tâches depuis votre téléphone

Apple apporte des commandes vocales Siri plus personnelles à la version bêta 3