Una maggiore fedeltà di osservazione danneggia la risoluzione di problemi degli LLM embodied

ai-technology · 2026-05-20

Un nuovo studio su arXiv (2605.20072) rivela che i grandi modelli linguistici (LLM) non funzionano altrettanto bene nei sistemi robotici quando dispongono di dati perfetti rispetto all'uso di immagini RGB grezze. I ricercatori hanno testato agenti LLM con il Lockbox, un puzzle complesso con connessioni nascoste, e hanno esaminato dati RGB, RGB-D e simbolici perfetti in un ambiente robotico reale. È interessante notare che gli agenti che utilizzavano solo immagini RGB grezze hanno superato quelli con dati perfetti. Inoltre, le simulazioni hanno mostrato che modificare casualmente i risultati percepiti ha effettivamente migliorato le prestazioni, raggiungendo una probabilità di capovolgimento ottimale del 40%, che ha portato a un aumento del successo di 2,85 volte. Ciò solleva dubbi sull'idea che una migliore qualità di osservazione sia sempre utile in questi compiti.

Fatti principali

Studio pubblicato su arXiv con ID 2605.20072
LLM utilizzati come componenti cognitive per sistemi robotici
Puzzle Lockbox utilizzato per la valutazione
Testate osservazioni RGB, RGB-D e simboliche ground-truth
L'input RGB grezzo ha prodotto le migliori prestazioni
Le osservazioni ground-truth perfette hanno prodotto le peggiori prestazioni
Rumore moderato (40% di probabilità di capovolgimento) ha migliorato il tasso di successo di 2,85 volte
Simulazione controllata utilizzata per sondare il comportamento

Una maggiore fedeltà di osservazione danneggia la risoluzione di problemi degli LLM embodied

Fatti principali

Entità

Istituzioni

Fonti