METIS: Interiorizzare il Giudizio Curricolare per il Reinforcement Fine-Tuning dei LLM
È stato proposto un nuovo framework chiamato METIS (METacognitive Internalized Self-judgment) per l'apprendimento curricolare nel Reinforcement Fine-Tuning (RFT) dei LLM. A differenza delle tecniche esistenti che si basano su euristiche esterne o modelli ausiliari per la valutazione curricolare, METIS incorpora questo giudizio come caratteristica intrinseca. Sfrutta l'intuizione che la varianza delle ricompense all'interno dei prompt funge da misura efficace dell'informatività del prompt, prevedendo questa dai risultati di addestramento recenti come semplici istanze di in-context learning. Questo autogiudizio influenza dinamicamente la distribuzione dell'addestramento. Inoltre, METIS integra il giudizio con l'ottimizzazione migliorando contemporaneamente le ricompense standard del RFT insieme a una ricompensa di autogiudizio, consentendo alla policy di determinare il proprio prossimo focus di apprendimento attraverso la metacognizione. La ricerca è disponibile su arXiv con ID 2605.11235.
Fatti principali
- 1. METIS interiorizza il giudizio curricolare come capacità nativa per il RFT dei LLM.
- 2. I metodi attuali esternalizzano il giudizio curricolare tramite euristiche o modelli ausiliari.
- 3. La varianza delle ricompense all'interno del prompt misura l'informatività del prompt.
- 4. METIS prevede questa metrica dai risultati di addestramento recenti come esempi di in-context learning.
- 5. L'autogiudizio determina dinamicamente l'allocazione dell'addestramento.
- 6. METIS ottimizza congiuntamente le ricompense standard del RFT e una ricompensa di autogiudizio.
- 7. La policy impara cosa apprendere successivamente come metacognizione.
- 8. Articolo disponibile su arXiv:2605.11235.
Entità
Istituzioni
- arXiv