Profondità di Impegno Adattiva Migliora il Ragionamento Visivo-Linguistico a Lungo Termine

other · 2026-05-12

Un nuovo metodo da arXiv (2605.09860) tratta la profondità di impegno—il numero di azioni eseguite prima di ri-pianificare—come una variabile apprendibile e condizionata dallo stato all'interno di una politica visivo-linguistica. Questo approccio adattivo supera le baseline a profondità fissa su Sliding Puzzle e Sokoban, raggiungendo tassi di risoluzione fino a 12,5 punti percentuali più alti, utilizzando circa il 25% in meno di azioni primitive per episodio. Il sistema utilizza un backbone da 7B e supera GPT-4o in termini di prestazioni.

Fatti principali

La profondità di impegno è formalizzata come il numero di azioni primitive eseguite a ciclo aperto tra le ri-pianificazioni.
La maggior parte dei sistemi a lungo termine esistenti fissa la profondità di impegno come uno scalare progettato a mano.
Il metodo proposto tratta la profondità di impegno come una variabile apprendibile e condizionata dallo stato della politica.
La politica adattiva è istanziata all'interno di una politica visivo-linguistica nativa del modello.
Il metodo domina in senso paretiano ogni baseline a profondità fissa non degenere su Sliding Puzzle e Sokoban.
Raggiunge un tasso di risoluzione fino a 12,5 punti percentuali più alto.
Utilizza circa il 25% in meno di azioni primitive per episodio.
Il sistema utilizza un backbone da 7B e supera GPT-4o.

Profondità di Impegno Adattiva Migliora il Ragionamento Visivo-Linguistico a Lungo Termine

Fatti principali

Entità

Istituzioni

Fonti