Studio Rivela che gli Agenti Scientifici basati su IA Ignorano le Prove nel 68% delle Tracce di Ricerca
Un nuovo studio pubblicato su arXiv (2604.18805v1) rivela che i sistemi basati su modelli linguistici di grandi dimensioni, impiegati per la ricerca scientifica autonoma, violano frequentemente le norme epistemiche fondamentali. Attraverso l'analisi di oltre 25.000 esecuzioni di agenti in otto ambiti scientifici, i ricercatori hanno riscontrato che le prove sono state ignorate nel 68% delle tracce di ragionamento. Lo studio ha utilizzato due metodologie complementari: un'analisi sistematica delle prestazioni che separa i contributi dei modelli base dagli scaffold degli agenti, e un'analisi comportamentale che esamina la struttura epistemologica del ragionamento degli agenti. I risultati hanno mostrato che il modello base ha rappresentato il 41,4% della varianza spiegata sia nelle prestazioni che nel comportamento, rispetto a solo l'1,5% per lo scaffold. La revisione delle convinzioni guidata dalla confutazione si è verificata solo nel 26% dei casi, mentre le prove convergenti da test multipli sono rimaste rare. La ricerca si interroga sul fatto che gli agenti scientifici basati su LLM aderiscano ai principi di autocorrezione essenziali per l'indagine scientifica, in particolare nei contesti di esecuzione dei flussi di lavoro e di indagine guidata da ipotesi.
Fatti principali
- Studio pubblicato come arXiv:2604.18805v1
- Analizzate oltre 25.000 esecuzioni di agenti basati su LLM
- Prove ignorate nel 68% delle tracce di ragionamento
- Il modello base ha rappresentato il 41,4% della varianza spiegata
- Lo scaffold dell'agente ha rappresentato l'1,5% della varianza spiegata
- La revisione delle convinzioni guidata dalla confutazione si è verificata nel 26% dei casi
- Le prove convergenti da test multipli erano rare
- Esaminati otto ambiti scientifici
Entità
Istituzioni
- arXiv