ARTFEED — Contemporary Art Intelligence

Una maggiore fedeltà di osservazione danneggia la risoluzione di problemi degli LLM embodied

ai-technology · 2026-05-20

Un nuovo studio su arXiv (2605.20072) rivela che i grandi modelli linguistici (LLM) non funzionano altrettanto bene nei sistemi robotici quando dispongono di dati perfetti rispetto all'uso di immagini RGB grezze. I ricercatori hanno testato agenti LLM con il Lockbox, un puzzle complesso con connessioni nascoste, e hanno esaminato dati RGB, RGB-D e simbolici perfetti in un ambiente robotico reale. È interessante notare che gli agenti che utilizzavano solo immagini RGB grezze hanno superato quelli con dati perfetti. Inoltre, le simulazioni hanno mostrato che modificare casualmente i risultati percepiti ha effettivamente migliorato le prestazioni, raggiungendo una probabilità di capovolgimento ottimale del 40%, che ha portato a un aumento del successo di 2,85 volte. Ciò solleva dubbi sull'idea che una migliore qualità di osservazione sia sempre utile in questi compiti.

Fatti principali

  • Studio pubblicato su arXiv con ID 2605.20072
  • LLM utilizzati come componenti cognitive per sistemi robotici
  • Puzzle Lockbox utilizzato per la valutazione
  • Testate osservazioni RGB, RGB-D e simboliche ground-truth
  • L'input RGB grezzo ha prodotto le migliori prestazioni
  • Le osservazioni ground-truth perfette hanno prodotto le peggiori prestazioni
  • Rumore moderato (40% di probabilità di capovolgimento) ha migliorato il tasso di successo di 2,85 volte
  • Simulazione controllata utilizzata per sondare il comportamento

Entità

Istituzioni

  • arXiv

Fonti