CMBAgent fallisce silenziosamente in compiti astrofisici
Uno studio recente che valuta CMBAgent su 18 compiti astrofisici indica che l'IA eccelle in problemi ben definiti ma spesso genera output plausibili ma errati senza capacità di autocorrezione. Nel contesto One-Shot, l'incorporazione di informazioni specifiche del dominio migliora le prestazioni di circa sei volte (0,85 rispetto a ~0 senza contesto). Tuttavia, il problema principale deriva da calcoli errati silenziosi, dove codice sintatticamente corretto produce risultati erronei. Nel contesto Deep Research, il sistema subisce fallimenti silenziosi durante i test di stress, portando a risultati fisicamente inconsistenti. Questi risultati evidenziano che il fallimento più allarmante nei processi scientifici agentivi non sono gli errori palesi, ma conclusioni apparentemente valide ma inaccurate.
Fatti principali
- CMBAgent è stato valutato su due paradigmi di flusso di lavoro e 18 compiti astrofisici.
- Nell'impostazione One-Shot, il contesto specifico del dominio produce un miglioramento delle prestazioni di ~6x (0,85 vs. ~0 senza contesto).
- La modalità di fallimento principale è il calcolo errato silenzioso: codice sintatticamente valido che produce risultati plausibili ma inaccurati.
- Nell'impostazione Deep Research, il sistema mostra frequentemente fallimenti silenziosi nei test di stress.
- Il sistema produce posteriori fisicamente inconsistenti senza autodiagnosi.
- Le prestazioni degradano su problemi progettati per sondare i limiti del ragionamento, spesso senza segnali di errore visibili.
- La modalità di fallimento più preoccupante non sono gli errori palesi, ma risultati plausibili ma sbagliati.
- Lo studio è pubblicato su arXiv con ID 2604.25345.
Entità
Istituzioni
- arXiv