Una maggiore fedeltà di osservazione danneggia la risoluzione di problemi degli LLM embodied
Un nuovo studio su arXiv (2605.20072) rivela che i grandi modelli linguistici (LLM) non funzionano altrettanto bene nei sistemi robotici quando dispongono di dati perfetti rispetto all'uso di immagini RGB grezze. I ricercatori hanno testato agenti LLM con il Lockbox, un puzzle complesso con connessioni nascoste, e hanno esaminato dati RGB, RGB-D e simbolici perfetti in un ambiente robotico reale. È interessante notare che gli agenti che utilizzavano solo immagini RGB grezze hanno superato quelli con dati perfetti. Inoltre, le simulazioni hanno mostrato che modificare casualmente i risultati percepiti ha effettivamente migliorato le prestazioni, raggiungendo una probabilità di capovolgimento ottimale del 40%, che ha portato a un aumento del successo di 2,85 volte. Ciò solleva dubbi sull'idea che una migliore qualità di osservazione sia sempre utile in questi compiti.
Fatti principali
- Studio pubblicato su arXiv con ID 2605.20072
- LLM utilizzati come componenti cognitive per sistemi robotici
- Puzzle Lockbox utilizzato per la valutazione
- Testate osservazioni RGB, RGB-D e simboliche ground-truth
- L'input RGB grezzo ha prodotto le migliori prestazioni
- Le osservazioni ground-truth perfette hanno prodotto le peggiori prestazioni
- Rumore moderato (40% di probabilità di capovolgimento) ha migliorato il tasso di successo di 2,85 volte
- Simulazione controllata utilizzata per sondare il comportamento
Entità
Istituzioni
- arXiv