Il Ragionamento AI Multi-Turn Fallisce per Dimenticanza, Non per Contraddizione
Uno studio recente indica che la modalità di fallimento principale dei sistemi di ragionamento multi-turn è la 'deriva soddisfacibile'. Ciò si verifica quando lo stato interno rimane coerente, ma la risposta contraddice involontariamente impegni precedenti, piuttosto che generare una contraddizione logica. Per indagare questo fenomeno, i ricercatori hanno sviluppato DRIFT-Bench, un benchmark composto da 816 problemi di test in tre domini di vincoli, e hanno valutato quattro metodi utilizzando quattro modelli open-weight con parametri da 8B a 120B. L'approccio MUS-Repair, che reintroduce sottoinsiemi minimi insoddisfacibili al generatore, ha superato tutti i metodi di base di 1,8-15,0 punti percentuali. Dopo un feedback strutturato, le contraddizioni erano quasi assenti, con errori residui dovuti per il 98-100% a deriva soddisfacibile. Lo studio è disponibile su arXiv con ID 2605.23940.
Fatti principali
- I sistemi di ragionamento multi-turn falliscono principalmente per deriva soddisfacibile, non per contraddizione.
- DRIFT-Bench include 816 problemi di test in tre domini di vincoli.
- Quattro metodi sono stati valutati su quattro modelli open-weight (8B-120B parametri).
- MUS-Repair ha superato tutte le baseline non-MUS di +1,8 a +15,0 punti percentuali.
- Gli errori residui dopo il feedback sono per il 98-100% deriva soddisfacibile.
- La contraddizione scende quasi a zero dopo un feedback strutturato.
- Il paper è su arXiv con ID 2605.23940.
Entità
Istituzioni
- arXiv