Agente di Codifica con Modello del Mondo Raggiunge il 28% di Risoluzione su ARC-AGI-3
Un recente preprint su arXiv (2605.05138) valuta un framework di agente di codifica per ARC-AGI-3, che opera un modello del mondo Python eseguibile. Questo modello viene validato rispetto a osservazioni del mondo reale e semplificato tramite refactoring per ottenere una forma di bias verso la semplicità simile a MDL. La pianificazione avviene all'interno del modello prima dell'esecuzione. Il sistema comprende un controller scriptato, interfacce del modello del mondo predefinite, programmi di verifica e un esecutore di pianificazione, tutti privi di logica codificata specifica per il gioco. In 25 giochi pubblici ARC-AGI-3, ogni sessione utilizza una nuova istanza dell'agente senza accesso a file o conversazioni precedenti. L'agente ha completato con successo 7 giochi (28% di risoluzione), ha superato un'Efficienza Relativa dell'Azione Umana del 75% in 6 giochi e ha registrato un punteggio medio per gioco. È stata notata variabilità nei risultati tra diverse partite indipendenti per alcuni giochi. Questo metodo è volutamente semplice, enfatizzando la verifica esplicita e il refactoring rispetto a componenti apprese.
Fatti principali
- arXiv:2605.05138 valuta un sistema di agente di codifica per ARC-AGI-3
- L'agente mantiene un modello del mondo Python eseguibile
- Il sistema utilizza controller scriptato, interfacce predefinite, programmi di verifica, esecutore di pianificazione
- Nessuna logica codificata specifica per il gioco
- Testato su 25 giochi pubblici ARC-AGI-3
- Ogni partita utilizza una nuova istanza dell'agente
- L'agente ha risolto completamente 7 giochi (28% di risoluzione)
- Efficienza Relativa dell'Azione Umana >75% su 6 giochi
- Multiple partite per alcuni giochi mostrano variabilità da esecuzione a esecuzione
Entità
Istituzioni
- arXiv