CopT inverte il chain-of-thought per un ragionamento efficiente degli LLM
Un nuovo articolo introduce CopT (Contrastive On-Policy Thinking), una pipeline di ragionamento che inverte l'ordine tradizionale del chain-of-thought (CoT). Invece di pensare prima di rispondere, CopT genera prima una bozza di risposta, poi esegue un pensiero on-policy condizionato da tale bozza per riflessione e correzione. Utilizza embedding continui come verificatori contrastivi al momento dell'inferenza per valutare l'affidabilità della bozza di risposta. L'approccio mira a ridurre i costi in termini di token e a evitare ragionamenti performativi. L'articolo è pubblicato su arXiv con ID 2605.20075.
Fatti principali
- 1. CopT inverte l'ordine di pensiero e risposta nel ragionamento degli LLM.
- 2. Prima sollecita una bozza di risposta, poi invoca un pensiero on-policy per la riflessione.
- 3. Gli embedding continui sono usati come verificatori contrastivi al momento dell'inferenza.
- 4. L'approccio mira al ragionamento performativo e ai costi inutili di token.
- 5. L'articolo è disponibile su arXiv con ID 2605.20075.
Entità
Istituzioni
- arXiv