Nuova dimostrazione: gli LLM falliscono fondamentalmente nella scoperta causale
Un recente studio pubblicato su arXiv rivela che i grandi modelli linguistici faticano a condurre efficacemente la scoperta causale, un aspetto essenziale del ragionamento scientifico. I ricercatori illustrano che metodi come il supervised fine-tuning, l'ottimizzazione diretta delle preferenze e l'apprendimento in contesto producono predittori che non riescono a distinguere tra grafi causali che generano dati osservazionali simili. Questo problema è formalizzato come un teorema di ostruzione del kernel, indicando che la limitazione è intrinseca all'approccio di apprendimento piuttosto che legata a un modello o dataset specifico. Anche i modelli sottoposti a fine-tuning raggiungono un plateau con grafi causali semplici e le loro prestazioni diminuiscono all'aumentare della complessità. Per affrontare questa sfida, gli autori introducono l'Agentic Causal Bayesian Optimization (A-CBO), utilizzando un modello linguistico congelato come agente interventista per guidare gli esperimenti. Il documento è disponibile su arXiv con l'identificatore 2605.27567.
Fatti principali
- La scoperta causale è un pilastro del ragionamento scientifico.
- Gli LLM non possono eseguire in modo affidabile la scoperta causale.
- I modelli sottoposti a fine-tuning raggiungono un plateau su grafi causali semplici.
- Le prestazioni degradano all'aumentare della complessità del grafo.
- Il fallimento è dimostrato essere fondamentale.
- Il supervised fine-tuning, il DPO e l'ICL producono tutti predittori indistinguibili.
- La limitazione è formalizzata come un teorema di ostruzione del kernel.
- L'Agentic Causal Bayesian Optimization (A-CBO) è proposto come soluzione.
Entità
Istituzioni
- arXiv