NoisyCausal Benchmark Testa il Ragionamento Causale degli LLM in Presenza di Rumore
Un nuovo benchmark chiamato NoisyCausal è stato sviluppato dai ricercatori per valutare le capacità di ragionamento causale nei modelli linguistici di grandi dimensioni (LLM) in mezzo a rumore strutturato. Ogni istanza del benchmark deriva da un grafo causale reale ed è inserita in un contesto di linguaggio naturale, incorporando tipi di rumore controllabili come distrattori irrilevanti, cambiamenti di valore, fattori confondenti e osservabilità parziale. Inoltre, viene proposto un framework di ragionamento modulare che integra gli LLM con strutture causali definite per affrontare questi problemi. L'obiettivo del benchmark è valutare la capacità degli LLM di distinguere tra correlazione e causalità quando si trovano di fronte a osservazioni inaccurate o dati irrilevanti. Questa ricerca è descritta in un articolo disponibile su arXiv, identificato dal codice 2605.04313.
Fatti principali
- NoisyCausal è un nuovo benchmark per valutare il ragionamento causale in presenza di rumore strutturato.
- Ogni istanza è generata da un grafo causale reale.
- I tipi di rumore includono distrattori irrilevanti, perturbazioni di valore, confondimento e osservabilità parziale.
- Viene proposto un framework di ragionamento modulare che combina LLM con struttura causale esplicita.
- Gli LLM faticano a distinguere tra correlazione e causalità in condizioni di rumore.
- Il benchmark è progettato per testare il ragionamento causale in scenari di linguaggio naturale.
- L'articolo è disponibile su arXiv con ID 2605.04313.
- La ricerca si concentra sulla valutazione delle capacità di ragionamento causale degli LLM.
Entità
Istituzioni
- arXiv