Profondità di Impegno Adattiva Migliora il Ragionamento Visivo-Linguistico a Lungo Termine
Un nuovo metodo da arXiv (2605.09860) tratta la profondità di impegno—il numero di azioni eseguite prima di ri-pianificare—come una variabile apprendibile e condizionata dallo stato all'interno di una politica visivo-linguistica. Questo approccio adattivo supera le baseline a profondità fissa su Sliding Puzzle e Sokoban, raggiungendo tassi di risoluzione fino a 12,5 punti percentuali più alti, utilizzando circa il 25% in meno di azioni primitive per episodio. Il sistema utilizza un backbone da 7B e supera GPT-4o in termini di prestazioni.
Fatti principali
- La profondità di impegno è formalizzata come il numero di azioni primitive eseguite a ciclo aperto tra le ri-pianificazioni.
- La maggior parte dei sistemi a lungo termine esistenti fissa la profondità di impegno come uno scalare progettato a mano.
- Il metodo proposto tratta la profondità di impegno come una variabile apprendibile e condizionata dallo stato della politica.
- La politica adattiva è istanziata all'interno di una politica visivo-linguistica nativa del modello.
- Il metodo domina in senso paretiano ogni baseline a profondità fissa non degenere su Sliding Puzzle e Sokoban.
- Raggiunge un tasso di risoluzione fino a 12,5 punti percentuali più alto.
- Utilizza circa il 25% in meno di azioni primitive per episodio.
- Il sistema utilizza un backbone da 7B e supera GPT-4o.
Entità
Istituzioni
- arXiv