Plan: Comportamento Agentico Strutturato per il Recupero Multi-Salto

other · 2026-05-28

Un recente articolo su arXiv (2605.28354) presenta Plan, un metodo per il comportamento agentico strutturato nel recupero multi-salto. Questa tecnica scompone una domanda in sotto-domande sequenziali prima di qualsiasi azione di recupero. Ogni fase di ricerca è legata a una specifica sotto-domanda, il che aiuta a evitare distrazioni da documenti parzialmente rilevanti. La ricerca valuta modelli che vanno da 3B a 14B parametri in tre categorie e rivela che gli stessi segnali di ricompensa possono portare a diverse modalità di fallimento qualitativo del RL. Ciò suggerisce che un addestramento efficace si basa sia sulla progettazione delle ricompense che sulle caratteristiche specifiche del modello. I risultati mettono in discussione l'approccio comune di fondere l'apprendimento per rinforzo con un cold start SFT distillato da un modello più robusto, sottolineando l'importanza delle strutture di dipendenza tra sotto-competenze e metodi alternativi per acquisire capacità.

Fatti principali

L'articolo arXiv 2605.28354 introduce Plan per il recupero multi-salto.
Plan scompone le domande in sotto-domande ordinate prima del recupero.
Ogni passo di ricerca è ancorato a una sotto-domanda predefinita.
Sono stati testati modelli da 3B a 14B parametri in tre famiglie.
Segnali di ricompensa identici hanno causato diverse modalità di fallimento del RL per modello.
Il successo dell'addestramento dipende dalla progettazione della ricompensa e da fattori specifici del modello.
Mette in discussione il paradigma del RL con cold start SFT da modelli più forti.
Evidenzia la struttura di dipendenza tra sotto-competenze e l'acquisizione alternativa di capacità.

Plan: Comportamento Agentico Strutturato per il Recupero Multi-Salto

Fatti principali

Entità

Istituzioni

Fonti