CoRD: Decodifica Collaborativa Multi-Insegnante per il Ragionamento a Catena Lunga
Il nuovo framework CoRD (Collaborative Multi-Teacher Decoding) migliora il processo di distillazione del ragionamento a catena lunga (Long-CoT) derivato da modelli di ragionamento di grandi dimensioni (LRM). Le tecniche attuali selezionano percorsi di ragionamento completi a posteriori, trascurando la collaborazione tra diversi insegnanti e mancando di esplorazione dinamica, con conseguente campionamento ridondante. CoRD consente la sintesi passo-passo del ragionamento attraverso un punteggio basato sulla perplessità predittiva e la ricerca a fascio, permettendo a più LRM di collaborare per creare percorsi di ragionamento coerenti, mantenendo al contempo una varietà di ipotesi. I risultati sperimentali indicano che CoRD produce dati di ragionamento di qualità superiore, raggiungendo prestazioni degli studenti paragonabili a quelle degli insegnanti con meno segnali di supervisione e costi di efficienza minimi. Questo framework dimostra anche una forte generalizzazione a compiti fuori distribuzione. La ricerca è disponibile su arXiv con ID 2605.02290.
Fatti principali
- CoRD sta per Decodifica Collaborativa Multi-Insegnante.
- Affronta i limiti della distillazione basata su curation per il ragionamento Long-CoT.
- Utilizza la sintesi del ragionamento passo-passo con punteggio basato sulla perplessità e ricerca a fascio.
- Consente a LRM eterogenei di costruire congiuntamente traiettorie di ragionamento.
- Raggiunge prestazioni degli studenti vicine a quelle degli insegnanti con meno segnali strutturati.
- Generalizza bene a compiti fuori distribuzione.
- Pubblicato su arXiv con ID 2605.02290.
- Riduce il campionamento ridondante e le mancate complementarità di ragionamento.
Entità
Istituzioni
- arXiv