Nuovo framework di IA mira alle carenze nel ragionamento causale dei grandi modelli linguistici
Un nuovo articolo di ricerca presenta l'Epistemic Regret Minimization (ERM), un metodo progettato per rilevare e correggere il ragionamento causale difettoso nei grandi modelli linguistici che mancano di etichette di verità fondamentale. Questo studio, disponibile su arXiv (2602.11675v3), dimostra che l'apprendimento per rinforzo incentiva frequentemente i modelli a derivare risposte corrette attraverso scorciatoie associative, rendendoli suscettibili a cambiamenti di distribuzione. Le valutazioni sul benchmark CausalT5K, che presenta 1.360 scenari su sei LLM, hanno indicato risposte diverse dei modelli. Mentre i modelli conformi si adattavano con un semplice riprompting, modelli intensivi di ragionamento come GPT-4 Turbo, GPT-5.2 e Claude Sonnet 3.5 interagivano con le critiche causali dell'ERM. Uno studio di ablazione che coinvolgeva 4.054 scenari ha validato che il contenuto causale della critica era fondamentale per le correzioni, raggiungendo significatività statistica a p=0,006. Il framework esamina le tracce di ragionamento per correggere errori di ragionamento causale.
Fatti principali
- L'Epistemic Regret Minimization (ERM) è un nuovo framework per identificare carenze nel ragionamento causale negli LLM.
- L'ERM non richiede etichette di verità fondamentale e funziona analizzando le tracce di ragionamento.
- Lo studio utilizza il benchmark CausalT5K con 1.360 scenari e sei LLM di frontiera.
- I modelli si biforcano: i modelli conformi si correggono con riprompting basato solo sul risultato, mentre i modelli intensivi di ragionamento vi resistono.
- Modelli intensivi di ragionamento come GPT-4 Turbo, GPT-5.2 e Claude Sonnet 3.5 rispondono significativamente alla critica causale dell'ERM.
- Un'ablazione su 4.054 scenari mostra che il contenuto causale guida la correzione, non solo la struttura del prompt (p=0,006).
- Un giudice cieco agli scenari sostiene che la fuoriuscita di risposte non sia un fattore confondente.
- I metodi RL attuali premiano risposte corrette ma rafforzano scorciatoie associative P(Y|X) rispetto a query interventistiche P(Y|do(X)).
Entità
Istituzioni
- arXiv