Un framework RL addestra politiche di prompting per LLM black-box tramite distillazione iterativa
Un nuovo framework di Reinforcement Learning (RL) è stato creato per addestrare strategie di prompting per modelli linguistici di grandi dimensioni (LLM) black-box statici, perfezionando le esperienze nel tempo. Questo approccio utilizza un modello prompter semplificato volto ad aumentare i reward specifici per un LLM worker più ampio. Incorpora un buffer di esperienze contrastive che collega reward scalari con valutazioni testuali approfondite, consentendo di fondere i perfezionamenti iterativi del prompt in pesi di policy a colpo singolo. I test sui benchmark Big Bench Extra Hard (BBEH) e Tau-bench hanno mostrato miglioramenti delle prestazioni dal 55% al 90% nel ragionamento logico-intensivo e dal 74% al 91% nei compiti legati all'uso di strumenti. Questo metodo innovativo affronta l'ingegneria dei prompt come una sfida di ottimizzazione cruciale quando si ha a che fare con LLM fissi.
Fatti principali
- Propone un framework RL per addestrare politiche di prompting apprese tramite distillazione iterativa dell'esperienza.
- Utilizza un modello prompter leggero ottimizzato per massimizzare i reward specifici per un LLM worker più grande e congelato.
- Il buffer di esperienze contrastive accoppia reward scalari con critiche testuali dense.
- Amortizza il perfezionamento iterativo del prompt in pesi di policy a colpo singolo.
- Analisi sperimentale sulle suite Big Bench Extra Hard (BBEH) e Tau-bench.
- Prestazioni migliorate dal 55% al 90% nei compiti di ragionamento logico-intensivo.
- Prestazioni migliorate dal 74% al 91% nei compiti di uso di strumenti.
- Affronta l'ingegneria dei prompt come una sfida di ottimizzazione critica per LLM black-box.
Entità
Istituzioni
- arXiv