L'équipe d'optimisation des performances d'Anthropic, évaluant les candidats depuis 2024, révise son test d'entretien technique pour contrer la tricherie assistée par l'IA, selon le chef d'équipe Tristan Hume. Anthropic a mis en place un test à emporter pour les candidats à un emploi. L'amélioration des capacités des outils de codage de l'IA a nécessité de fréquentes révisions de ce test, conçu pour évaluer les compétences des candidats. Tristan Hume, chef d'équipe, a détaillé ces défis dans un article de blog mercredi. Hume a déclaré : « Chaque nouveau modèle Claude nous a obligés à repenser le test. » Il a noté que « Dans le même délai, Claude Opus 4 a surpassé la plupart des candidats humains. » Par la suite, “Claude Opus 4.5 correspondait même à ceux-là”, faisant référence aux candidats humains les plus forts. Cette évolution a posé un problème important d’évaluation des candidats. L’absence de surveillance en personne a rendu impossible la prévention de l’utilisation de l’IA pendant le test. Hume a expliqué : « Sous les contraintes du test à emporter, nous n'avions plus aucun moyen de faire la distinction entre les résultats de nos meilleurs candidats et notre modèle le plus performant. » La prolifération de la triche liée à l’IA, déjà observée dans les établissements d’enseignement du monde entier, a désormais un impact sur les laboratoires d’IA. Anthropic possède cependant des ressources distinctes pour résoudre ce problème spécifique. Hume a finalement développé un nouveau test. Cette évaluation révisée se concentre moins sur l’optimisation du matériel, ce qui la rend difficile pour les outils d’IA actuels. Dans le cadre de son article, il a publié le test original, invitant les lecteurs à proposer des solutions alternatives. Le message indiquait : “Si vous parvenez à améliorer l'Opus 4.5, nous serions ravis d'avoir de vos nouvelles.”
Source: Anthropic repense les tests d'embauche après Claude 4.5 "as" entretien humain