COSE: PPO con Ponderazione della Confidenza per LLM Auto-Evolventi
Un nuovo metodo chiamato COSE (Confidence-Orchestrated Self-Evolution) è stato introdotto dai ricercatori per consentire ai grandi modelli linguistici (LLM) di auto-evolversi. Questa tecnica utilizza la confidenza intrinseca del modello come indicatore sottile di incertezza per migliorare l'apprendimento. COSE incorpora aggiornamenti PPO ponderati per la confidenza e replay con priorità di confidenza, affrontando il problema dei segnali di addestramento in cui autovalutazioni errate portano a aggiornamenti del gradiente difettosi. Elimina la necessità di validatori esterni o di considerare feedback auto-generati rumorosi come supervisione. Testato su 19 benchmark esclusi e quattro backbone Qwen/Llama (da 0,6B a 4B), COSE supera costantemente i modelli di base, raggiungendo le prestazioni medie più elevate in ragionamento generale e matematica. I risultati sono disponibili su arXiv con ID 2605.28010.
Fatti principali
- COSE utilizza la confidenza intrinseca del LLM come segnale di incertezza
- Introduce aggiornamenti PPO ponderati per la confidenza
- Introduce replay con priorità di confidenza
- Valutato su 19 benchmark esclusi
- Testato su backbone Qwen/Llama da 0,6B a 4B parametri
- Affronta la sfida dei segnali di addestramento derivanti da autovalutazioni errate
- Evita validatori esterni e feedback auto-generati rumorosi
- Pubblicato su arXiv con ID 2605.28010
Entità
Istituzioni
- arXiv