COSE: PPO con Ponderazione della Confidenza per LLM Auto-Evolventi

ai-technology · 2026-05-28

Un nuovo metodo chiamato COSE (Confidence-Orchestrated Self-Evolution) è stato introdotto dai ricercatori per consentire ai grandi modelli linguistici (LLM) di auto-evolversi. Questa tecnica utilizza la confidenza intrinseca del modello come indicatore sottile di incertezza per migliorare l'apprendimento. COSE incorpora aggiornamenti PPO ponderati per la confidenza e replay con priorità di confidenza, affrontando il problema dei segnali di addestramento in cui autovalutazioni errate portano a aggiornamenti del gradiente difettosi. Elimina la necessità di validatori esterni o di considerare feedback auto-generati rumorosi come supervisione. Testato su 19 benchmark esclusi e quattro backbone Qwen/Llama (da 0,6B a 4B), COSE supera costantemente i modelli di base, raggiungendo le prestazioni medie più elevate in ragionamento generale e matematica. I risultati sono disponibili su arXiv con ID 2605.28010.

Fatti principali

COSE utilizza la confidenza intrinseca del LLM come segnale di incertezza
Introduce aggiornamenti PPO ponderati per la confidenza
Introduce replay con priorità di confidenza
Valutato su 19 benchmark esclusi
Testato su backbone Qwen/Llama da 0,6B a 4B parametri
Affronta la sfida dei segnali di addestramento derivanti da autovalutazioni errate
Evita validatori esterni e feedback auto-generati rumorosi
Pubblicato su arXiv con ID 2605.28010

COSE: PPO con Ponderazione della Confidenza per LLM Auto-Evolventi

Fatti principali

Entità

Istituzioni

Fonti