CLORE: Un Framework per il Ragionamento Efficiente degli LLM tramite Ottimizzazione a Livello di Contenuto

ai-technology · 2026-05-23

I ricercatori propongono CLORE, un framework di ottimizzazione a livello di contenuto per migliorare l'efficienza del ragionamento nei modelli linguistici di grandi dimensioni. L'apprendimento per rinforzo post-addestramento spesso produce tracce di ragionamento lunghe, ripetitive o opache. CLORE modifica i rollout corretti on-policy eliminando contenuti ripetitivi, illeggibili o irrilevanti per il compito, preservando la risposta finale. Utilizza un modello di augmentazione esterno e ottimizza coppie augmentate-originali con un obiettivo DPO senza riferimento insieme all'addestramento standard con policy gradient. Il metodo limita l'augmentazione alle traiettorie corrette ed esegue cancellazioni locali, mantenendo gli output modificati concisi. L'articolo è disponibile su arXiv con ID 2605.22211.

Fatti principali

1. CLORE sta per Content-Level Optimization for Reasoning Efficiency
2. ID arXiv: 2605.22211
3. Tipo di annuncio: nuovo
4. Affronta tracce di ragionamento inutilmente lunghe, ripetitive o semanticamente opache derivanti dal post-addestramento RL
5. Utilizza un modello di augmentazione esterno per eliminare segmenti ripetitivi, contenuti illeggibili o irrilevanti per il compito e ragionamenti superflui
6. Preserva la risposta finale
7. Ottimizza coppie augmentate-originali con un obiettivo DPO ausiliario senza riferimento
8. Limita l'augmentazione alle traiettorie corrette ed esegue cancellazioni locali

CLORE: Un Framework per il Ragionamento Efficiente degli LLM tramite Ottimizzazione a Livello di Contenuto

Fatti principali

Entità

Istituzioni

Fonti