CoRD: Decodifica Collaborativa Multi-Insegnante per il Ragionamento a Catena Lunga

publication · 2026-05-06

Il nuovo framework CoRD (Collaborative Multi-Teacher Decoding) migliora il processo di distillazione del ragionamento a catena lunga (Long-CoT) derivato da modelli di ragionamento di grandi dimensioni (LRM). Le tecniche attuali selezionano percorsi di ragionamento completi a posteriori, trascurando la collaborazione tra diversi insegnanti e mancando di esplorazione dinamica, con conseguente campionamento ridondante. CoRD consente la sintesi passo-passo del ragionamento attraverso un punteggio basato sulla perplessità predittiva e la ricerca a fascio, permettendo a più LRM di collaborare per creare percorsi di ragionamento coerenti, mantenendo al contempo una varietà di ipotesi. I risultati sperimentali indicano che CoRD produce dati di ragionamento di qualità superiore, raggiungendo prestazioni degli studenti paragonabili a quelle degli insegnanti con meno segnali di supervisione e costi di efficienza minimi. Questo framework dimostra anche una forte generalizzazione a compiti fuori distribuzione. La ricerca è disponibile su arXiv con ID 2605.02290.

Fatti principali

CoRD sta per Decodifica Collaborativa Multi-Insegnante.
Affronta i limiti della distillazione basata su curation per il ragionamento Long-CoT.
Utilizza la sintesi del ragionamento passo-passo con punteggio basato sulla perplessità e ricerca a fascio.
Consente a LRM eterogenei di costruire congiuntamente traiettorie di ragionamento.
Raggiunge prestazioni degli studenti vicine a quelle degli insegnanti con meno segnali strutturati.
Generalizza bene a compiti fuori distribuzione.
Pubblicato su arXiv con ID 2605.02290.
Riduce il campionamento ridondante e le mancate complementarità di ragionamento.

CoRD: Decodifica Collaborativa Multi-Insegnante per il Ragionamento a Catena Lunga

Fatti principali

Entità

Istituzioni

Fonti