CLORE: Un Framework per il Ragionamento Efficiente degli LLM tramite Ottimizzazione a Livello di Contenuto
I ricercatori propongono CLORE, un framework di ottimizzazione a livello di contenuto per migliorare l'efficienza del ragionamento nei modelli linguistici di grandi dimensioni. L'apprendimento per rinforzo post-addestramento spesso produce tracce di ragionamento lunghe, ripetitive o opache. CLORE modifica i rollout corretti on-policy eliminando contenuti ripetitivi, illeggibili o irrilevanti per il compito, preservando la risposta finale. Utilizza un modello di augmentazione esterno e ottimizza coppie augmentate-originali con un obiettivo DPO senza riferimento insieme all'addestramento standard con policy gradient. Il metodo limita l'augmentazione alle traiettorie corrette ed esegue cancellazioni locali, mantenendo gli output modificati concisi. L'articolo è disponibile su arXiv con ID 2605.22211.
Fatti principali
- 1. CLORE sta per Content-Level Optimization for Reasoning Efficiency
- 2. ID arXiv: 2605.22211
- 3. Tipo di annuncio: nuovo
- 4. Affronta tracce di ragionamento inutilmente lunghe, ripetitive o semanticamente opache derivanti dal post-addestramento RL
- 5. Utilizza un modello di augmentazione esterno per eliminare segmenti ripetitivi, contenuti illeggibili o irrilevanti per il compito e ragionamenti superflui
- 6. Preserva la risposta finale
- 7. Ottimizza coppie augmentate-originali con un obiettivo DPO ausiliario senza riferimento
- 8. Limita l'augmentazione alle traiettorie corrette ed esegue cancellazioni locali
Entità
Istituzioni
- arXiv