Studio Rivela che gli Agenti Scientifici basati su IA Ignorano le Prove nel 68% delle Tracce di Ricerca

ai-technology · 2026-04-22

Un nuovo studio pubblicato su arXiv (2604.18805v1) rivela che i sistemi basati su modelli linguistici di grandi dimensioni, impiegati per la ricerca scientifica autonoma, violano frequentemente le norme epistemiche fondamentali. Attraverso l'analisi di oltre 25.000 esecuzioni di agenti in otto ambiti scientifici, i ricercatori hanno riscontrato che le prove sono state ignorate nel 68% delle tracce di ragionamento. Lo studio ha utilizzato due metodologie complementari: un'analisi sistematica delle prestazioni che separa i contributi dei modelli base dagli scaffold degli agenti, e un'analisi comportamentale che esamina la struttura epistemologica del ragionamento degli agenti. I risultati hanno mostrato che il modello base ha rappresentato il 41,4% della varianza spiegata sia nelle prestazioni che nel comportamento, rispetto a solo l'1,5% per lo scaffold. La revisione delle convinzioni guidata dalla confutazione si è verificata solo nel 26% dei casi, mentre le prove convergenti da test multipli sono rimaste rare. La ricerca si interroga sul fatto che gli agenti scientifici basati su LLM aderiscano ai principi di autocorrezione essenziali per l'indagine scientifica, in particolare nei contesti di esecuzione dei flussi di lavoro e di indagine guidata da ipotesi.

Fatti principali

Studio pubblicato come arXiv:2604.18805v1
Analizzate oltre 25.000 esecuzioni di agenti basati su LLM
Prove ignorate nel 68% delle tracce di ragionamento
Il modello base ha rappresentato il 41,4% della varianza spiegata
Lo scaffold dell'agente ha rappresentato l'1,5% della varianza spiegata
La revisione delle convinzioni guidata dalla confutazione si è verificata nel 26% dei casi
Le prove convergenti da test multipli erano rare
Esaminati otto ambiti scientifici

Studio Rivela che gli Agenti Scientifici basati su IA Ignorano le Prove nel 68% delle Tracce di Ricerca

Fatti principali

Entità

Istituzioni

Fonti