ARC-AGI-3 Benchmark Vulnerabile a Strategie Non Intelligenti
Un nuovo articolo su arXiv (2605.25931) analizza sistematicamente tutti i 25 giochi pubblici ARC-AGI-3 e scopre che ciascuno può essere risolto da strategie non intelligenti, inclusi passi ciechi, azioni di sondaggio e pressioni ripetute di pulsanti. Una vulnerabilità a livello di libreria con coordinate nulle bypassa 18 giochi in un solo passo. Gli autori sostengono che il set di valutazione pubblico non può distinguere l'esplorazione intelligente da euristiche banali, rendendo la valutazione privata su 55 giochi l'unico vero test di intelligenza. Introducono AERA (Adaptive Epistemic Reasoning Agent), un agente in tre fasi (EXPLORE/VERIFY/PLAN) che raggiunge RHAE=0.2116 (4/25 risolti) usando Qwen2.5-0.5B, mentre i baseline casuali e senza esplorazione ottengono 0.0000. Il lavoro formalizza un quadro di compromesso Velocità-Profondità sotto un'ipotesi di convessità.
Fatti principali
- Tutti i 25 giochi pubblici ARC-AGI-3 sono raggiungibili tramite strategie non intelligenti.
- 10 giochi risolti in un singolo passo cieco.
- 5 giochi risolti dopo un'azione di sondaggio.
- 1 gioco risolto tramite pressioni ripetute di ACTION1.
- 1 gioco risolto tramite esplorazione diversificata.
- 8 giochi risolti tramite azioni ripetute singole con 50-200 passi.
- Una vulnerabilità a livello di libreria con coordinate nulle bypassa 18 giochi in 1 passo.
- AERA raggiunge RHAE=0.2116 (4/25 risolti) con Qwen2.5-0.5B.
- I baseline casuali e senza esplorazione ottengono 0.0000.
- La valutazione privata su 55 giochi è l'unico vero test di intelligenza.
Entità
Istituzioni
- arXiv