Auto-Discovery-Bench: Benchmark per il Tracciamento Strutturato dello Stato nella Scoperta Guidata da Oracolo
L'Auto-Discovery-Bench è un nuovo standard progettato per valutare quanto bene gli agenti possano mantenere e rivedere credenze strutturate nel contesto della scoperta interattiva. Questo benchmark utilizza un quadro deterministico guidato da oracolo, consentendo agli agenti di scoprire strutture nascoste attraverso cicli di ipotesi, intervento e feedback. Comprende tre tipi di scoperta: grafo diretto, relazionale non diretto e scoperta di equazioni simboliche. I risultati indicano che le prestazioni diminuiscono con l'aumento delle variabili, traiettorie estese e ulteriori distrattori. Una diagnostica focalizzata sul tracciamento della traiettoria mostra che i problemi persistono anche quando la selezione dell'intervento e la generazione di ipotesi sono escluse, evidenziando le sfide nel mantenere e integrare stati strutturati a lungo raggio.
Fatti principali
- Auto-Discovery-Bench è un benchmark diagnostico deterministico guidato da oracolo.
- Coinvolge cicli ripetuti di ipotesi-intervento-feedback.
- Tre astrazioni di scoperta: grafo diretto, relazionale non diretto, equazione simbolica.
- Le prestazioni degradano con più variabili, traiettorie più lunghe e più distrattori.
- Una diagnostica di tracciamento della traiettoria isola il tracciamento dello stato da altre capacità.
- I fallimenti persistono anche senza selezione dell'intervento e generazione di ipotesi.
- Le limitazioni riguardano il mantenimento e l'integrazione di stati strutturati a lungo raggio.
- L'articolo è su arXiv con ID 2502.15224.
Entità
Istituzioni
- arXiv