L'algoritmo CORE migliora il ragionamento con pochi campioni
I ricercatori hanno introdotto Contrastive Reflection (CORE), un algoritmo di apprendimento non parametrico che consente ai modelli linguistici di migliorare il ragionamento utilizzando appena cinque campioni di addestramento. CORE confronta tracce di ragionamento passate per generare insight—brevi descrizioni in linguaggio naturale di strategie e vincoli—che catturano le differenze tra tentativi riusciti e falliti. In quattro compiti di ragionamento, CORE ha superato metodi parametrici come GRPO e metodi non parametrici come GEPA, RAG episodico e MemRL, richiedendo meno rollout. L'algoritmo affronta l'alto costo degli approcci tradizionali, che tipicamente necessitano di centinaia di campioni e migliaia di rollout. Il paper è disponibile su arXiv con ID 2605.28742.
Fatti principali
- CORE è un algoritmo di apprendimento non parametrico.
- Utilizza la riflessione contrastiva per generare insight dalle tracce di ragionamento.
- Richiede appena cinque campioni di addestramento.
- Supera GRPO, GEPA, RAG episodico e MemRL.
- Testato su quattro compiti di ragionamento.
- Riduce la necessità di centinaia di campioni e migliaia di rollout.
- Pubblicato su arXiv con ID 2605.28742.
- Si concentra sul miglioramento del ragionamento dei modelli linguistici.
Entità
Istituzioni
- arXiv