- Google Research et Everyday Robots, propriété d’Alphabet, combinent ce qu’ils appellent “SayCan” (modèles de langage avec une base réelle dans des capacités pré-formées) avec PaLM, ou Pathways Language Model.
- Les chercheurs de Google expliquent comment ils organisent les capacités de planification du robot pour choisir l’une de ses “compétences” sur la base d’une instruction de haut niveau d’un humain, puis analysent la probabilité que chaque compétence possible ait terminé l’instruction dans leur article “Faites comme je peux”. , Pas comme je dis.’
Appartenant à Google Research et Alphabet Robots du quotidien intégrer SayCan (modèles linguistiques avec une base réelle dans les compétences pré-formées) et PaLM, ou Modèle de langage Pathways, son plus grand modèle de langage. Les chercheurs d’Everyday Robots utilisent des modèles de langage à grande échelle pour aider les robots à éviter une mauvaise interprétation de la communication humaine qui pourrait entraîner des actions inappropriées, voire dangereuses.
Cette combinaison, connue sous le nom de PaLM-SayCanmontre une voie à suivre pour simplifier la communication homme-robot et améliorer les performances des tâches robotiques.
Vincent Vanhoucke, scientifique émérite et responsable de la robotique chez Google Research, explique : “PaLM peut aider le système robotique à traiter des invites plus complexes et ouvertes et à y répondre de manière raisonnable et sensée”.
Les grands modèles de langage tels que le GPT-3 d’OpenAI peuvent simuler la façon dont les humains utilisent le langage et aider les programmeurs avec des suggestions d’achèvement de code automatique comme le copilote de GitHub, mais ceux-ci ne se traduisent pas dans le monde physique dans lequel les robots pourraient un jour opérer dans un cadre domestique.
Du côté de la robotique, les robots d’usine sont aujourd’hui programmés de manière rigide. Les recherches de Google démontrent comment les humains pourraient un jour utiliser le langage naturel pour poser à un robot une question qui nécessite que le robot comprenne le contexte de la question, puis prenne une action appropriée dans un environnement donné.
Par exemple, la réponse actuelle du GPT-3 à “J’ai renversé mon verre, pouvez-vous m’aider ?” est “Vous pouvez essayer d’utiliser un aspirateur.” C’est un comportement potentiellement dangereux. LaMDA, l’IA conversationnelle ou basée sur le dialogue de Google, répond : “Voulez-vous que je trouve un nettoyeur ?” tandis que FLAN répond: “Je suis désolé, je ne voulais pas le renverser.”
L’équipe de Google Research et Everyday Robots a testé la méthode PALM-SayCan dans un environnement de cuisine à l’aide d’un robot.
Leur stratégie consistait à “ancrer” PaLM dans le contexte d’un robot recevant des commandes de haut niveau d’un humain, où le robot doit déterminer quelles actions sont utiles et ce dont il est capable dans cet environnement.
Maintenant, quand un chercheur de Google dit “J’ai renversé mon verre, pouvez-vous m’aider?” le robot répond avec une éponge et tente de placer la canette vide dans le bon bac de recyclage. Une formation supplémentaire pourrait comprendre comment nettoyer le déversement.
Vanhoucke décrit l’opération d’enracinement du modèle de langage dans PaLM-SayCan.
«PaLM suggère des approches possibles pour une tâche basées sur la compréhension du langage, et les modèles de robots font de même en fonction d’un ensemble de compétences techniquement réalisables. Le système combiné croise ensuite les deux pour identifier des stratégies de robot plus efficaces et réalisables.
En plus de faciliter la communication homme-robot, cette stratégie améliore les performances et la capacité du robot à planifier et à exécuter des tâches.
Dans leur article intitulé “Do As I Can, Not As I Say”, les chercheurs de Google décrivent comment ils structurent les capacités de planification d’un robot pour identifier l’une de ses “compétences” sur la base d’une instruction de haut niveau d’un humain, puis évaluent la probabilité de chaque compétence possible pour remplir l’instruction.
« Concrètement, nous structurons la planification comme un dialogue entre un utilisateur et un robot, dans lequel un utilisateur fournit l’instruction de haut niveau, par exemple « Comment m’apporteriez-vous une canette de coca ? » et le modèle de langage répond par une séquence explicite, par exemple “Je voudrais : 1. Trouver une canette de coca, 2. Ramasser la canette de coca, 3. Vous l’apporter, 4. Terminé”.
“SayCan, étant donné une instruction de haut niveau, sélectionne la compétence à exécuter en combinant les probabilités d’un modèle de langage (représentant la probabilité qu’une compétence soit utile pour l’instruction) et les probabilités d’une fonction de valeur (représentant la probabilité d’exécuter avec succès ladite compétence ). Cela émet une capacité faisable et utile. Répéter le processus en ajoutant la compétence sélectionnée à la réponse du robot et en interrogeant les modèles jusqu’à ce que l’étape de sortie soit terminée. »
Source: Google va utiliser des modèles de langage d’IA pour fabriquer des robots d’aide à domicile