Dati di Ragionamento Compresso nel Post-Training di LLM: Una Tassonomia e Studio Empirico
Un nuovo articolo su arXiv (2605.28008) indaga l'uso di dati di ragionamento compresso nel supervised fine-tuning (SFT) per modelli linguistici di grandi dimensioni (LLM). Gli autori propongono una tassonomia del ragionamento a catena di pensiero (CoT): CoT Esplicito (produce tutte le operazioni), CoT Composto (combina più operazioni in un unico passaggio) e CoT Implicito (omette operazioni intermedie). Costruiscono un compito di ragionamento compositivo sintetico per controllare difficoltà, granularità della compressione e dimensione dei dati, conducendo esperimenti su diverse famiglie e dimensioni di modelli. Risultato chiave: CoT più grossolano richiede più dati per eguagliare le prestazioni di CoT più fine, ma può ridurre il costo in token. Lo studio mira a comprendere quando e come i dati di ragionamento compresso funzionano nel post-training.
Fatti principali
- Articolo su arXiv: 2605.28008
- Tassonomia del CoT: Esplicito, Composto, Implicito
- Utilizzo di un compito di ragionamento compositivo sintetico
- Esperimenti su più famiglie e dimensioni di modelli
- CoT più grossolano richiede più dati per eguagliare le prestazioni del CoT più fine
- Il ragionamento compresso può ridurre il costo in token
- Focus sul supervised fine-tuning (SFT)
- Variazione controllata di difficoltà, granularità della compressione, dimensione dei dati
Entità
Istituzioni
- arXiv