Modello Transformer si Auto-Migliora per la Generazione di Piani Ottimali
Uno studio recente rivela che i transformer decoder-only possono creare soluzioni di alta qualità per problemi mai visti prima, se addestrati su dataset ottimali. I ricercatori affrontano il complesso problema della generazione di piani ottimali in tempo sub-esponenziale. Dimostrano un metodo per migliorare un modello iniziale, addestrato su dati non ideali, integrando più chiamate al modello con tecniche di ricerca su grafo per perfezionare i piani per il fine-tuning. I test condotti negli ambienti Blocksworld, Logistics, Labyrinth e Sokoban indicano una riduzione del 30% della lunghezza del piano rispetto al pianificatore simbolico originale, con oltre l'80% dei piani ottimali quando la soluzione migliore è nota. Inoltre, la ricerca durante l'inferenza migliora ulteriormente la qualità del piano.
Fatti principali
- Modelli generativi addestrati su dati di piani sintetici sono utilizzati per la pianificazione generalizzata.
- Lavori recenti si sono concentrati su qualsiasi piano valido, non su soluzioni di alta qualità.
- Un transformer decoder-only può generare piani di alta qualità per problemi non visti, dati dati ottimali.
- L'auto-miglioramento combina più chiamate al modello con ricerca su grafo.
- Esperimenti su quattro domini: Blocksworld, Logistics, Labyrinth, Sokoban.
- Riduzione media del 30% della lunghezza del piano rispetto al pianificatore simbolico di partenza.
- Oltre l'80% dei piani è ottimale dove l'ottimo è noto.
- La ricerca durante l'inferenza migliora ulteriormente la qualità del piano.
Entità
—