La semaine dernière, des millions de machines Windows ont été paralysées en raison d’un bug dans la mise à jour de CrowdStrike. L’incident, qui a touché environ 8,5 millions d’appareils, a été attribué à un bug dans le logiciel de test.
La mise à jour défectueuse a échappé au processus de validation, ce qui a entraîné des plantages généralisés. Ce problème de CrowdStrike a incité l’entreprise à s’engager à effectuer des tests plus rigoureux et à améliorer la gestion des erreurs pour les futures mises à jour.
Le problème CrowdStrike a provoqué une panne chez Microsoft
Le dernier fiasco de CrowdStrike n’est pas un cas isolé Problème avec CrowdStrike; cela fait écho aux défis plus vastes du secteur technologique. Microsoft a également subi une panne importante à cause de cela, ce qui a amplifié le chaos au point d’affecter des pays. Si les racines de la panne de Microsoft étaient différentes, les problèmes concomitants ont mis en évidence la nature fragile des services cloud et les effets d’entraînement des pannes logicielles. En fin de compte, le problème de CrowdStrike a été le déclencheur. De tels incidents soulignent la nécessité de processus de test et de validation robustes dans tous les domaines.
Qu’est-ce qu’une panne de CrowdStrike ?
Le logiciel Falcon de CrowdStrike est un outil essentiel pour les entreprises et offre une protection robuste contre les logiciels malveillants et les failles de sécurité sur des millions de machines Windows. Le problème de CrowdStrike est survenu lorsqu’une mise à jour de configuration de contenu de routine destinée à recueillir des données télémétriques sur des menaces potentielles a provoqué un crash catastrophique. Cette mise à jour faisait partie du contenu de réponse rapide, un petit fichier de 40 Ko qui ne fonctionnait pas correctement et a entraîné des pannes système généralisées. Cela ressemble à de vieux virus. C’est comme avoir un «Âne” un son et un flux sans fin de messages d’avertissement qui ne disent rien et votre ordinateur s’éteint involontairement.
L’anatomie de la panne
Le problème de CrowdStrike était lié à la mise à jour du capteur Falcon par Rapid Response Content pour améliorer la détection des logiciels malveillants. Cette mise à jour particulière contenait des données de contenu problématiques qui ont réussi à passer à travers le vérificateur de contenu en raison d’un bug. CrowdStrike indique qu’il effectue généralement des tests automatisés et manuels sur ses mises à jour. Cependant, Quick Response Content n’a pas été soumis aux mêmes tests approfondis que les autres mises à jour, ou a réussi d’une manière ou d’une autre à passer le test, ce qui a conduit au crash catastrophique.
Comment tout cela a-t-il mal tourné ?
Le problème de CrowdStrike peut être attribué à une hypothèse erronée concernant la fiabilité de leur validateur de contenu. En mars, un nouveau déploiement de types de modèles a conduit CrowdStrike à croire que son processus de validation était infaillible. Cependant, cette confiance s’est avérée mal placée. Le contenu problématique de réponse rapide a été chargé dans l’interpréteur de contenu du capteur, déclenchant une exception de mémoire hors limites que Windows n’a pas pu gérer, ce qui a entraîné le tristement célèbre écran bleu de la mort (BSOD).
Quand la panne de CrowdStrike a-t-elle commencé ? Chronologie du problème
Le problème de CrowdStrike a éclaté un vendredi, un jour où les entreprises suspendent généralement leurs activités pour le week-end. Le timing n’aurait pas pu être pire, car il a entraîné des perturbations immédiates dans de nombreuses organisations. La mise à jour défectueuse, censée améliorer la sécurité, a au contraire paralysé les systèmes, provoquant des temps d’arrêt et des frustrations importants.
Intervention initiale et contrôle des dégâts
CrowdStrike a rapidement identifié le fichier problématique Rapid Response Content comme étant la source du problème. Malgré cette identification rapide, le mal était déjà fait. Les entreprises qui s’appuyaient sur CrowdStrike Falcon ont dû se démener pour atténuer l’impact de la panne. L’urgence de la situation a incité CrowdStrike à publier un rapport post-incident détaillé (PIR), décrivant la cause profonde et son plan pour éviter que de futurs incidents ne se reproduisent.
Engagements pour prévenir les problèmes futurs
En réponse au problème de CrowdStrike, l’entreprise a promis plusieurs mesures pour éviter qu’une telle catastrophe ne se reproduise. Il s’agit notamment de :
- Tests améliorés:Implémentation de tests de développeurs locaux, de tests de mise à jour et de restauration du contenu, de tests de stress, de fuzzing et d’injection de pannes.
- Gestion des erreurs améliorée:Amélioration des capacités de gestion des erreurs de l’interpréteur de contenu au sein du capteur Falcon.
- Déploiement échelonné:Déploiement progressif des mises à jour sur des portions plus larges de la base d’installation au lieu d’une mise en œuvre immédiate.
Qu’est-ce que CrowdStrike Falcon ? Le protecteur en question
CrowdStrike Falcon est le logiciel au cœur de ce problème. Il s’agit d’une plateforme cloud qui offre une protection des terminaux, combinant antivirus, renseignements sur les menaces et détection et réponse aux terminaux (EDR). La fonction principale du logiciel est de protéger contre les logiciels malveillants et les failles de sécurité, ce qui en fait un outil essentiel pour les entreprises du monde entier.
Comment fonctionne Falcon
Falcon fonctionne en déployant des capteurs au niveau du noyau des machines Windows. Ces capteurs surveillent en permanence les activités suspectes et utilisent l’IA et l’apprentissage automatique pour améliorer les capacités de détection. Les mises à jour de ces capteurs, comme le contenu de réponse rapide, sont essentielles pour maintenir une protection à jour contre les menaces émergentes.
Le rôle du contenu à réponse rapide
Les mises à jour de contenu Rapid Response sont conçues pour ajuster le comportement des capteurs Falcon, leur permettant de détecter de nouvelles formes de malware. Ces mises à jour sont généralement petites et rapides à déployer, ce qui en fait un élément essentiel des fonctionnalités de Falcon. Cependant, le problème de CrowdStrike a démontré les risques potentiels lorsque ces mises à jour ne sont pas complètement validées.
Le Département et l’Agence de cybersécurité et de sécurité des infrastructures (@CISAgov) travaillent avec CrowdStrike, Microsoft et nos partenaires fédéraux, étatiques, locaux et d’infrastructures critiques pour évaluer et résoudre pleinement les pannes du système.
— Sécurité intérieure (@DHSgov) 19 juillet 2024
Les leçons du problème CrowdStrike
Le problème de CrowdStrike nous rappelle l’importance de processus de test et de validation robustes. Bien que l’entreprise ait présenté plusieurs mesures pour prévenir de futurs incidents, la communauté technologique surveillera sans aucun doute la situation de près. Il est primordial de garantir la fiabilité des logiciels de sécurité, et le problème de CrowdStrike a mis en évidence les enjeux en jeu.
Le problème de CrowdStrike souligne l’équilibre délicat entre les mises à jour rapides et la stabilité du système. Alors que les entreprises continuent de s’appuyer fortement sur ces logiciels pour assurer leur sécurité, les leçons tirées de cet incident seront cruciales pour façonner les pratiques et les protocoles futurs.
Crédits de l’image en vedette : Groupe de presse Scoop
Source: Cours intensif sur le problème de CrowdStrike