Un framework RL addestra politiche di prompting per LLM black-box tramite distillazione iterativa

ai-technology · 2026-05-16

Un nuovo framework di Reinforcement Learning (RL) è stato creato per addestrare strategie di prompting per modelli linguistici di grandi dimensioni (LLM) black-box statici, perfezionando le esperienze nel tempo. Questo approccio utilizza un modello prompter semplificato volto ad aumentare i reward specifici per un LLM worker più ampio. Incorpora un buffer di esperienze contrastive che collega reward scalari con valutazioni testuali approfondite, consentendo di fondere i perfezionamenti iterativi del prompt in pesi di policy a colpo singolo. I test sui benchmark Big Bench Extra Hard (BBEH) e Tau-bench hanno mostrato miglioramenti delle prestazioni dal 55% al 90% nel ragionamento logico-intensivo e dal 74% al 91% nei compiti legati all'uso di strumenti. Questo metodo innovativo affronta l'ingegneria dei prompt come una sfida di ottimizzazione cruciale quando si ha a che fare con LLM fissi.

Fatti principali

Propone un framework RL per addestrare politiche di prompting apprese tramite distillazione iterativa dell'esperienza.
Utilizza un modello prompter leggero ottimizzato per massimizzare i reward specifici per un LLM worker più grande e congelato.
Il buffer di esperienze contrastive accoppia reward scalari con critiche testuali dense.
Amortizza il perfezionamento iterativo del prompt in pesi di policy a colpo singolo.
Analisi sperimentale sulle suite Big Bench Extra Hard (BBEH) e Tau-bench.
Prestazioni migliorate dal 55% al 90% nei compiti di ragionamento logico-intensivo.
Prestazioni migliorate dal 74% al 91% nei compiti di uso di strumenti.
Affronta l'ingegneria dei prompt come una sfida di ottimizzazione critica per LLM black-box.

Un framework RL addestra politiche di prompting per LLM black-box tramite distillazione iterativa

Fatti principali

Entità

Istituzioni

Fonti