Apprendre à un robot à effectuer des tâches répétitives dans des espaces contrôlés sans la présence de personnes, bien que ce ne soit pas la tâche la plus simple, mais tout à fait résoluble. Il est beaucoup plus difficile d'apprendre à un robot à résoudre diverses tâches basées sur des commandes vocales dans des espaces où des personnes sont également présentes. Nous ne parlons pas de modèles tels que les aspirateurs robots, qui sont simplement programmés pour ne rien toucher au sol.
Google a fait quelques progrès dans le niveau de compréhension du langage naturel par les robots que les humains peuvent utiliser. Avec l'aide de son système de traitement du langage naturel Pathways Language Model (PaLM), l'entreprise a pu obtenir un traitement précis des phrases et une compréhension par le robot de ce qu'une personne veut vraiment, plutôt que de faire littéralement ce qui a été dit.
La tâche suivante consiste à comprendre de quoi le robot est réellement capable. Le robot peut comprendre la demande d'obtenir un article de l'étagère, mais le problème est qu'il ne pourra pas l'atteindre car l'étagère est trop haute. Google appelle "capacités" ce qu'un robot peut faire avec plus ou moins de succès. Il peut s'agir de tâches simples ("avancer d'un mètre"), de tâches plus complexes ("trouver une canette de cola dans la cuisine"), ainsi que d'actions complexes en plusieurs étapes qui nécessitent que le robot comprenne ses propres capacités et les monde qui l'entoure. Par exemple, « Ugh, j'ai renversé mon coca par terre. Pourriez-vous éponger la flaque d'eau et m'apporter un nouveau verre ?" Dans ce dernier cas, le robot devra décomposer la tâche en plusieurs étapes - déterminer l'endroit où le liquide a été renversé, aller à la cuisine, trouver une éponge, revenir en arrière, récupérer de l'eau, retourner à la cuisine pour presser l'éponge, etc. Bien qu'il doive peut-être décider - peut-être est-il préférable d'apporter d'abord une canette de cola, puis de commencer à nettoyer la flaque d'eau ?
Un autre problème auquel la robotique est confrontée est que les modèles de langage ne sont pas liés au monde physique. Par exemple, à la demande "J'ai renversé mon verre, pouvez-vous m'aider ?" le modèle de langage GPT-3 répond : "Vous pouvez essayer d'utiliser un aspirateur". Et cela a du sens pour elle, car le modèle linguistique associe l'aspirateur au processus de nettoyage. Bien que l'aspirateur ne soit pas conçu pour éliminer les flaques d'eau, essayer de le faire peut le casser.
Selon Google, il est important d'apprendre aux robots à déterminer ce qu'ils peuvent et ne peuvent pas faire, et ce qu'il est logique de faire en premier dans diverses situations.
2022-08-17 17:05:37
Auteur: Vitalii Babkin