Vous pouvez améliorer GPT-4 avec OpenAI Evals

Rencontrez OpenAI Evals. Parallèlement à la sortie de GPT-4, OpenAI a également publié un cadre logiciel open source pour tester l’efficacité de ses modèles d’IA.

L’équipe OpenAI a annoncé un nouvel ensemble d’outils qu’elle appelle Evals qui permettra à quiconque de signaler des problèmes avec les modèles de l’entreprise et de diriger les changements.

nous sommes open-source OpenAI Evals, notre cadre d’évaluation automatisée des performances des modèles d’IA, pour permettre à quiconque d’aider à améliorer nos modèles.
—Sam Altman (@sama) 14 mars 2023

Qu’est-ce qu’OpenAI Evals ?

Dans un article de blogOpenAI décrit cette méthodologie comme une « approche de crowdsourcing » pour valider les modèles.

“Nous utilisons Evals pour guider le développement de nos modèles (à la fois en identifiant les lacunes et en empêchant les régressions), et nos utilisateurs peuvent l’appliquer pour suivre les performances entre les versions de modèles et l’évolution des intégrations de produits”, écrit OpenAI. “Nous espérons qu’Evals devienne un véhicule de partage et de crowdsourcing de benchmarks, représentant un ensemble extrêmement large de modes de défaillance et de tâches difficiles.”
-OpenAI

L’objectif du projet Evals d’OpenAI est de construire et d’exécuter des repères qui peuvent être utilisés pour évaluer l’efficacité de modèles comme GPT-4 grâce à une analyse minutieuse de leurs performances. Avec Evals, les programmeurs peuvent générer des questions à l’aide d’ensembles de données, évaluer la précision des réponses d’un modèle OpenAI et évaluer l’efficacité de divers ensembles de données et modèles.

Evals est non seulement rétrocompatible avec plusieurs benchmarks d’IA bien connus, mais vous permet également de créer de nouvelles classes pour utiliser votre propre logique d’évaluation. Pour servir de référence, OpenAI a conçu une évaluation des énigmes logiques avec 10 exemples de problèmes avec lesquels GPT-4 se débat.

C’est du bénévolat, ce qui est une énorme déception. Néanmoins, OpenAI a l’intention de fournir un accès GPT-4 aux personnes qui donnent des références de “haute qualité” afin d’encourager l’utilisation d’Evals.

“Nous pensons que Evals fera partie intégrante du processus d’utilisation et de développement de nos modèles, et nous accueillons les contributions directes, les questions et les commentaires.”
-OpenAI

OpenAI, qui a annoncé qu’il cesserait d’utiliser les données des consommateurs pour former ses modèles par défaut, rejoint les rangs de ceux qui se sont tournés vers le crowdsource afin de renforcer les modèles d’IA à l’aide d’Evals.

Êtes-vous dans GPT-4? Découvrez ceux-ci :