TIER: Nuovo Sistema di Ricompensa per l'Uso Multi-Step di Strumenti nei LLM
Un nuovo framework per l'apprendimento per rinforzo nei modelli linguistici di grandi dimensioni (LLM), chiamato TIER (Trajectory-Invariant Execution Rewards), è stato introdotto dai ricercatori per affrontare le sfide di scalabilità nella composizione multi-step di strumenti. A differenza delle ricompense basate sui risultati tradizionali che offrono feedback limitato o delle ricompense supervisionate dalla traiettoria che dipendono da annotazioni di riferimento, TIER genera supervisione dagli schemi delle funzioni e dall'esecuzione effettiva a runtime. Il sistema di ricompensa è suddiviso in diverse componenti: validità del formato, aderenza agli schemi, esecuzione riuscita e correttezza delle risposte, fornendo un feedback completo e interpretabile a livello di sequenza attraverso una verifica dettagliata di ogni passo di utilizzo dello strumento. Questo approccio consente il riconoscimento di qualsiasi percorso di esecuzione valido, accomodando vari metodi di soluzione e adattandosi a interfacce di strumenti in evoluzione. Lo studio è disponibile su arXiv con ID 2605.16790.
Fatti principali
- TIER sta per Trajectory-Invariant Execution Rewards
- Il framework è per la composizione multi-step di strumenti nei LLM
- Deriva la supervisione dagli schemi delle funzioni e dall'esecuzione a runtime
- La ricompensa si scompone in validità del formato, aderenza allo schema, successo dell'esecuzione e correttezza della risposta
- Fornisce un feedback denso e interpretabile a livello di sequenza
- Supporta molteplici strategie di soluzione
- Si adatta a interfacce di strumenti in evoluzione
- Pubblicato su arXiv con ID 2605.16790
Entità
Istituzioni
- arXiv