Insegnare a un robot a svolgere compiti ripetitivi in spazi controllati senza la presenza di persone, sebbene non sia il compito più semplice, ma abbastanza risolvibile. È molto più difficile insegnare a un robot a risolvere vari compiti basati su comandi vocali in spazi in cui sono presenti anche persone. Non stiamo parlando di modelli come i robot aspirapolvere, che sono semplicemente programmati per non toccare nulla sul pavimento.
Google ha compiuto alcuni progressi nel livello di comprensione del linguaggio naturale da parte dei robot che gli esseri umani possono utilizzare. Con l'aiuto del suo sistema di elaborazione del linguaggio naturale Pathways Language Model (PaLM), l'azienda è stata in grado di ottenere un'elaborazione accurata delle frasi e la comprensione da parte del robot di ciò che una persona vuole veramente, piuttosto che fare letteralmente ciò che è stato detto.
Il prossimo compito è capire di cosa è effettivamente capace il robot. Il robot può capire la richiesta di prendere un articolo dallo scaffale, ma il problema è che non riuscirà a raggiungerlo perché lo scaffale è troppo alto. Google chiama "capacità" ciò che un robot può fare più o meno con successo. Questi possono essere compiti semplici ("vai avanti di un metro"), compiti più complessi ("trova una lattina di cola in cucina"), nonché azioni complesse in più fasi che richiedono al robot di comprendere le proprie capacità e il mondo che lo circonda. Ad esempio, "Ugh, ho rovesciato la mia Coca Cola sul pavimento. Potresti pulire la pozzanghera e portarmi un nuovo drink?" In quest'ultimo caso, il robot dovrà suddividere l'attività in più fasi: determinare il luogo in cui è stato versato il liquido, andare in cucina, trovare una spugna, tornare indietro, raccogliere l'acqua, tornare in cucina per spremere la spugna, ecc. Anche se forse deve decidere - forse è meglio portare prima una lattina di cola e poi iniziare a pulire la pozzanghera?
Un altro problema che la robotica deve affrontare è che i modelli linguistici non sono legati al mondo fisico. Ad esempio, alla richiesta "Ho versato il mio drink, puoi aiutarmi?" il modello linguistico GPT-3 risponde: "Potresti provare a usare un aspirapolvere". E questo ha senso per lei, poiché il modello linguistico associa l'aspirapolvere al processo di pulizia. Sebbene l'aspirapolvere non sia progettato per rimuovere le pozzanghere, il tentativo di farlo potrebbe causarne la rottura.
Secondo Google, è importante insegnare ai robot a determinare cosa possono e non possono fare e cosa ha senso fare prima in varie situazioni.
2022-08-17 17:05:37
Autore: Vitalii Babkin