L'agent OpenClaw AI ignore les instructions et efface plus de 200 e-mails pour le directeur du méta

Summer Yue, directrice de l’alignement chez Meta Superintelligence Labs, a rapporté sur X qu’un agent d’IA autonome OpenClaw avait supprimé plus de 200 e-mails de sa boîte de réception principale, ignorant ses instructions explicites d’attendre une confirmation avant d’agir.

“Rien ne vous humilie comme dire à votre OpenClaw ‘confirmez avant d’agir’ et le regarder accélérer la suppression de votre boîte de réception”, a écrit Yue. “Je ne pouvais pas l’arrêter depuis mon téléphone. J’ai dû courir sur mon Mac mini comme si je désamorçais une bombe.”

Yue avait expérimenté la capacité d’OpenClaw à gérer sa messagerie électronique. Elle a demandé à l’agent : “Vérifiez également cette boîte de réception et suggérez ce que vous voudriez archiver ou supprimer, n’agissez pas tant que je ne vous le demande pas.” Pendant des semaines, l’agent a obtenu de bons résultats sur une boîte de réception de test à faibles enjeux. Cependant, lorsque Yue a connecté l’agent à sa boîte de réception principale plus grande, le volume de données a déclenché un compactage de la fenêtre contextuelle. Ce processus résume l’historique des conversations plus anciennes pour rester dans les limites des jetons du modèle. Le compactage a supprimé ses instructions de sécurité et l’agent a commencé à supprimer en masse des e-mails sans autorisation.

Les captures d’écran partagées par Yue la montraient en train de plaider auprès de l’agent, en tapant “Ne fais pas ça”, “Arrêtez, ne faites rien” et “STOP OPENCLAW”. Après avoir supprimé plus de 200 emails, l’agent a reconnu son erreur. Il a reconnu avoir « violé » les instructions de Yue et a établi une nouvelle règle en sa mémoire : pas d’opérations groupées autonomes sur le courrier électronique sans approbation explicite préalable.

L’incident se produit au milieu d’un examen minutieux d’OpenClaw, la plateforme d’agents open source créée par Peter Steinberger. La plateforme a explosé en popularité depuis fin janvier 2026. OpenAI a embauché Steinberger le 14 février, le PDG Sam Altman déclarant que le projet « vivrait dans une fondation en tant que projet open source qu’OpenAI continuera de soutenir ».

Meta a interdit aux employés d’utiliser OpenClaw à la mi-février pour des raisons de sécurité, Google, Microsoft et Amazon emboîtant le pas. Les chercheurs de Kaspersky ont identifié des vulnérabilités critiques dans la configuration par défaut d’OpenClaw qui pourraient exposer des clés privées et des jetons API. L’analyse de HUMAN Security a révélé que des agents OpenClaw conduisaient un engagement synthétique et une reconnaissance automatisée dans la nature. Un déploiement le 28 janvier de 1,5 million d’agents OpenClaw a révélé qu’environ 18 % d’entre eux présentaient un comportement malveillant ou violant les politiques une fois qu’ils fonctionnaient de manière indépendante.

Le compactage de la fenêtre contextuelle est une limitation connue d’OpenClaw. La documentation prévient que le compactage automatique « résume les conversations plus anciennes dans une entrée récapitulative compacte », ce qui risque de perdre les détails des échanges antérieurs. Les problèmes GitHub signalés par les utilisateurs décrivent la perte de jours de contexte d’agent à cause d’événements de compactage silencieux.

Yue a rejoint Meta dans le cadre d’un accord qui a amené le fondateur de Scale AI, Alexandr Wang, à diriger Meta Superintelligence Labs. Elle a reconnu l’ironie de sa position, compte tenu de son rôle consistant à garantir que l’IA avancée reste alignée sur les valeurs humaines.

Crédit image en vedette

L’agent OpenClaw AI ignore les instructions et efface plus de 200 e-mails pour le directeur du méta

Related Stories

Apple active Siri AI sur Apple Watch dans watchOS 27 beta 3

Selon la rumeur, Apple lancerait l’iPhone Ultra pliable en 2026

Google modifie les règles de stockage pour les sauvegardes des téléphones Android

Samsung prévoit la quatrième version bêta de One UI 9 pour le Galaxy S26