TIER: Nuovo Sistema di Ricompensa per l'Uso Multi-Step di Strumenti nei LLM

ai-technology · 2026-05-20

Un nuovo framework per l'apprendimento per rinforzo nei modelli linguistici di grandi dimensioni (LLM), chiamato TIER (Trajectory-Invariant Execution Rewards), è stato introdotto dai ricercatori per affrontare le sfide di scalabilità nella composizione multi-step di strumenti. A differenza delle ricompense basate sui risultati tradizionali che offrono feedback limitato o delle ricompense supervisionate dalla traiettoria che dipendono da annotazioni di riferimento, TIER genera supervisione dagli schemi delle funzioni e dall'esecuzione effettiva a runtime. Il sistema di ricompensa è suddiviso in diverse componenti: validità del formato, aderenza agli schemi, esecuzione riuscita e correttezza delle risposte, fornendo un feedback completo e interpretabile a livello di sequenza attraverso una verifica dettagliata di ogni passo di utilizzo dello strumento. Questo approccio consente il riconoscimento di qualsiasi percorso di esecuzione valido, accomodando vari metodi di soluzione e adattandosi a interfacce di strumenti in evoluzione. Lo studio è disponibile su arXiv con ID 2605.16790.

Fatti principali

TIER sta per Trajectory-Invariant Execution Rewards
Il framework è per la composizione multi-step di strumenti nei LLM
Deriva la supervisione dagli schemi delle funzioni e dall'esecuzione a runtime
La ricompensa si scompone in validità del formato, aderenza allo schema, successo dell'esecuzione e correttezza della risposta
Fornisce un feedback denso e interpretabile a livello di sequenza
Supporta molteplici strategie di soluzione
Si adatta a interfacce di strumenti in evoluzione
Pubblicato su arXiv con ID 2605.16790

TIER: Nuovo Sistema di Ricompensa per l'Uso Multi-Step di Strumenti nei LLM

Fatti principali

Entità

Istituzioni

Fonti