CopT inverte il chain-of-thought per un ragionamento efficiente degli LLM

ai-technology · 2026-05-20

Un nuovo articolo introduce CopT (Contrastive On-Policy Thinking), una pipeline di ragionamento che inverte l'ordine tradizionale del chain-of-thought (CoT). Invece di pensare prima di rispondere, CopT genera prima una bozza di risposta, poi esegue un pensiero on-policy condizionato da tale bozza per riflessione e correzione. Utilizza embedding continui come verificatori contrastivi al momento dell'inferenza per valutare l'affidabilità della bozza di risposta. L'approccio mira a ridurre i costi in termini di token e a evitare ragionamenti performativi. L'articolo è pubblicato su arXiv con ID 2605.20075.

Fatti principali

1. CopT inverte l'ordine di pensiero e risposta nel ragionamento degli LLM.
2. Prima sollecita una bozza di risposta, poi invoca un pensiero on-policy per la riflessione.
3. Gli embedding continui sono usati come verificatori contrastivi al momento dell'inferenza.
4. L'approccio mira al ragionamento performativo e ai costi inutili di token.
5. L'articolo è disponibile su arXiv con ID 2605.20075.

CopT inverte il chain-of-thought per un ragionamento efficiente degli LLM

Fatti principali

Entità

Istituzioni

Fonti