Agenti LLM Riproducono Risultati di Scienze Sociali Solo dai Metodi degli Articoli
Una recente indagine pubblicata su arXiv (2604.21965) esamina la capacità degli agenti LLM di replicare i risultati nelle scienze sociali utilizzando esclusivamente la metodologia descritta negli articoli di ricerca e i dataset originali, senza alcun accesso al codice o ai risultati. Il sistema estrae sistematicamente metodologie strutturate dai documenti, conduce reimplementazioni mantenendo un rigoroso isolamento informativo e consente confronti deterministici a livello di cella. Una fase di attribuzione degli errori identifica le ragioni alla base di eventuali discrepanze. Lo studio, che valuta quattro scaffold di agenti e quattro LLM su 48 articoli con riproducibilità umana confermata, rivela che, sebbene gli agenti possano generalmente riprodurre i risultati pubblicati, la loro efficacia varia significativamente tra modelli, scaffold e singoli articoli. L'analisi delle cause profonde indica che i fallimenti derivano sia da errori degli agenti che da fattori aggiuntivi.
Fatti principali
- L'articolo arXiv 2604.21965 testa agenti LLM che riproducono risultati di scienze sociali solo dalla descrizione dei metodi e dai dati.
- Gli agenti non vedono mai il codice originale, i risultati o l'articolo.
- Il sistema consente un confronto deterministico a livello di cella tra output riprodotti e risultati originali.
- Una fase di attribuzione degli errori traccia le discrepanze attraverso la catena del sistema.
- Valutati quattro scaffold di agenti e quattro LLM su 48 articoli.
- Tutti i 48 articoli hanno riproducibilità verificata dall'uomo.
- Le prestazioni variano sostanzialmente tra modelli, scaffold e articoli.
- I fallimenti derivano sia da errori degli agenti che da altre cause.
Entità
Istituzioni
- arXiv