Plan: Comportamento Agentico Strutturato per il Recupero Multi-Salto
Un recente articolo su arXiv (2605.28354) presenta Plan, un metodo per il comportamento agentico strutturato nel recupero multi-salto. Questa tecnica scompone una domanda in sotto-domande sequenziali prima di qualsiasi azione di recupero. Ogni fase di ricerca è legata a una specifica sotto-domanda, il che aiuta a evitare distrazioni da documenti parzialmente rilevanti. La ricerca valuta modelli che vanno da 3B a 14B parametri in tre categorie e rivela che gli stessi segnali di ricompensa possono portare a diverse modalità di fallimento qualitativo del RL. Ciò suggerisce che un addestramento efficace si basa sia sulla progettazione delle ricompense che sulle caratteristiche specifiche del modello. I risultati mettono in discussione l'approccio comune di fondere l'apprendimento per rinforzo con un cold start SFT distillato da un modello più robusto, sottolineando l'importanza delle strutture di dipendenza tra sotto-competenze e metodi alternativi per acquisire capacità.
Fatti principali
- L'articolo arXiv 2605.28354 introduce Plan per il recupero multi-salto.
- Plan scompone le domande in sotto-domande ordinate prima del recupero.
- Ogni passo di ricerca è ancorato a una sotto-domanda predefinita.
- Sono stati testati modelli da 3B a 14B parametri in tre famiglie.
- Segnali di ricompensa identici hanno causato diverse modalità di fallimento del RL per modello.
- Il successo dell'addestramento dipende dalla progettazione della ricompensa e da fattori specifici del modello.
- Mette in discussione il paradigma del RL con cold start SFT da modelli più forti.
- Evidenzia la struttura di dipendenza tra sotto-competenze e l'acquisizione alternativa di capacità.
Entità
Istituzioni
- arXiv