ARTFEED — Contemporary Art Intelligence

COSE: PPO con Ponderazione della Confidenza per LLM Auto-Evolventi

ai-technology · 2026-05-28

Un nuovo metodo chiamato COSE (Confidence-Orchestrated Self-Evolution) è stato introdotto dai ricercatori per consentire ai grandi modelli linguistici (LLM) di auto-evolversi. Questa tecnica utilizza la confidenza intrinseca del modello come indicatore sottile di incertezza per migliorare l'apprendimento. COSE incorpora aggiornamenti PPO ponderati per la confidenza e replay con priorità di confidenza, affrontando il problema dei segnali di addestramento in cui autovalutazioni errate portano a aggiornamenti del gradiente difettosi. Elimina la necessità di validatori esterni o di considerare feedback auto-generati rumorosi come supervisione. Testato su 19 benchmark esclusi e quattro backbone Qwen/Llama (da 0,6B a 4B), COSE supera costantemente i modelli di base, raggiungendo le prestazioni medie più elevate in ragionamento generale e matematica. I risultati sono disponibili su arXiv con ID 2605.28010.

Fatti principali

  • COSE utilizza la confidenza intrinseca del LLM come segnale di incertezza
  • Introduce aggiornamenti PPO ponderati per la confidenza
  • Introduce replay con priorità di confidenza
  • Valutato su 19 benchmark esclusi
  • Testato su backbone Qwen/Llama da 0,6B a 4B parametri
  • Affronta la sfida dei segnali di addestramento derivanti da autovalutazioni errate
  • Evita validatori esterni e feedback auto-generati rumorosi
  • Pubblicato su arXiv con ID 2605.28010

Entità

Istituzioni

  • arXiv

Fonti