Des chercheurs du MIT CSAIL ont développé PDDL-INSTRUCT, un cadre de réglage des instructions conçu pour améliorer les capacités de planification en plusieurs étapes des grands modèles de langage (LLM). La méthode combine un raisonnement en chaîne de pensée logique avec un validateur de plan externe pour augmenter la génération de plans logiquement valides par rapport à des résultats plausibles mais incorrects.

Le cadre forme des modèles pour reconnaître et expliquer pourquoi un plan candidat a échoué. Ces échecs peuvent inclure des conditions préalables non satisfaites, des effets incorrects, des violations de trame ou un objectif non atteint. Ce processus est associé à des invites de chaîne de pensée logique qui guident le LLM pour effectuer une inférence étape par étape sur les transitions d’état et d’action. Cela produit des séquences traçables d’état → action → état, écrites sous la forme ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩.

Pour la validation externe, PDDL-INSTRUCT intègre le validateur de plan VAL, qui vérifie chaque étape du plan généré. Le validateur fournit des commentaires binaires (valides/invalides) ou détaillés, ces commentaires détaillés se traduisant par des performances supérieures. Le système utilise un processus d’optimisation en deux étapes. La première étape pénalise les erreurs dans les chaînes de raisonnement et la deuxième étape optimise la précision de la planification finale.

Le système a été évalué à l’aide du benchmark PlanBench, qui inclut des domaines de planification connus pour défier les LLM, tels que Blocksworld, Mystery Blocksworld et Logistics. Dans le domaine Blocksworld, un modèle Llama-3-8B optimisé a atteint un taux de génération de plans valides de 94 %. Les modèles précédents avaient une validité proche de zéro sur Mystery Blocksworld, un domaine où les noms de prédicats sont obscurcis pour empêcher la correspondance de modèles. PDDL-INSTRUCT a réalisé une amélioration jusqu’à 64 fois supérieure dans ce domaine.

Des gains de performance significatifs ont également été enregistrés dans le domaine Logistique. Dans tous les domaines de test, le cadre a généré une amélioration absolue allant jusqu’à 66 % par rapport aux modèles de base non optimisés. Les chercheurs ont également noté que les performances s’amélioraient avec des budgets de feedback plus longs et des résultats plus détaillés du validateur.

L’implémentation actuelle de PDDL-INSTRUCT s’applique aux domaines PDDL classiques et dépend du validateur VAL en tant qu’oracle externe. Les résultats montrent une méthode permettant d’ancrer le raisonnement LLM dans une sémantique formelle destinée à être utilisée dans des systèmes d’agents pouvant inclure un vérificateur lors de la planification. L’extension du cadre pour gérer les tâches de planification à long terme, temporelles, numériques et sensibles aux coûts reste un domaine de travail ultérieur.