Dati di Ragionamento Compresso nel Post-Training di LLM: Una Tassonomia e Studio Empirico

ai-technology · 2026-05-28

Un nuovo articolo su arXiv (2605.28008) indaga l'uso di dati di ragionamento compresso nel supervised fine-tuning (SFT) per modelli linguistici di grandi dimensioni (LLM). Gli autori propongono una tassonomia del ragionamento a catena di pensiero (CoT): CoT Esplicito (produce tutte le operazioni), CoT Composto (combina più operazioni in un unico passaggio) e CoT Implicito (omette operazioni intermedie). Costruiscono un compito di ragionamento compositivo sintetico per controllare difficoltà, granularità della compressione e dimensione dei dati, conducendo esperimenti su diverse famiglie e dimensioni di modelli. Risultato chiave: CoT più grossolano richiede più dati per eguagliare le prestazioni di CoT più fine, ma può ridurre il costo in token. Lo studio mira a comprendere quando e come i dati di ragionamento compresso funzionano nel post-training.

Fatti principali

Articolo su arXiv: 2605.28008
Tassonomia del CoT: Esplicito, Composto, Implicito
Utilizzo di un compito di ragionamento compositivo sintetico
Esperimenti su più famiglie e dimensioni di modelli
CoT più grossolano richiede più dati per eguagliare le prestazioni del CoT più fine
Il ragionamento compresso può ridurre il costo in token
Focus sul supervised fine-tuning (SFT)
Variazione controllata di difficoltà, granularità della compressione, dimensione dei dati

Dati di Ragionamento Compresso nel Post-Training di LLM: Una Tassonomia e Studio Empirico

Fatti principali

Entità

Istituzioni

Fonti