ARTFEED — Contemporary Art Intelligence

Auto-Discovery-Bench: Benchmark per il Tracciamento Strutturato dello Stato nella Scoperta Guidata da Oracolo

other · 2026-06-01

L'Auto-Discovery-Bench è un nuovo standard progettato per valutare quanto bene gli agenti possano mantenere e rivedere credenze strutturate nel contesto della scoperta interattiva. Questo benchmark utilizza un quadro deterministico guidato da oracolo, consentendo agli agenti di scoprire strutture nascoste attraverso cicli di ipotesi, intervento e feedback. Comprende tre tipi di scoperta: grafo diretto, relazionale non diretto e scoperta di equazioni simboliche. I risultati indicano che le prestazioni diminuiscono con l'aumento delle variabili, traiettorie estese e ulteriori distrattori. Una diagnostica focalizzata sul tracciamento della traiettoria mostra che i problemi persistono anche quando la selezione dell'intervento e la generazione di ipotesi sono escluse, evidenziando le sfide nel mantenere e integrare stati strutturati a lungo raggio.

Fatti principali

  • Auto-Discovery-Bench è un benchmark diagnostico deterministico guidato da oracolo.
  • Coinvolge cicli ripetuti di ipotesi-intervento-feedback.
  • Tre astrazioni di scoperta: grafo diretto, relazionale non diretto, equazione simbolica.
  • Le prestazioni degradano con più variabili, traiettorie più lunghe e più distrattori.
  • Una diagnostica di tracciamento della traiettoria isola il tracciamento dello stato da altre capacità.
  • I fallimenti persistono anche senza selezione dell'intervento e generazione di ipotesi.
  • Le limitazioni riguardano il mantenimento e l'integrazione di stati strutturati a lungo raggio.
  • L'articolo è su arXiv con ID 2502.15224.

Entità

Istituzioni

  • arXiv

Fonti