Agente di Codifica con Modello del Mondo Raggiunge il 28% di Risoluzione su ARC-AGI-3

ai-technology · 2026-05-07

Un recente preprint su arXiv (2605.05138) valuta un framework di agente di codifica per ARC-AGI-3, che opera un modello del mondo Python eseguibile. Questo modello viene validato rispetto a osservazioni del mondo reale e semplificato tramite refactoring per ottenere una forma di bias verso la semplicità simile a MDL. La pianificazione avviene all'interno del modello prima dell'esecuzione. Il sistema comprende un controller scriptato, interfacce del modello del mondo predefinite, programmi di verifica e un esecutore di pianificazione, tutti privi di logica codificata specifica per il gioco. In 25 giochi pubblici ARC-AGI-3, ogni sessione utilizza una nuova istanza dell'agente senza accesso a file o conversazioni precedenti. L'agente ha completato con successo 7 giochi (28% di risoluzione), ha superato un'Efficienza Relativa dell'Azione Umana del 75% in 6 giochi e ha registrato un punteggio medio per gioco. È stata notata variabilità nei risultati tra diverse partite indipendenti per alcuni giochi. Questo metodo è volutamente semplice, enfatizzando la verifica esplicita e il refactoring rispetto a componenti apprese.

Fatti principali

arXiv:2605.05138 valuta un sistema di agente di codifica per ARC-AGI-3
L'agente mantiene un modello del mondo Python eseguibile
Il sistema utilizza controller scriptato, interfacce predefinite, programmi di verifica, esecutore di pianificazione
Nessuna logica codificata specifica per il gioco
Testato su 25 giochi pubblici ARC-AGI-3
Ogni partita utilizza una nuova istanza dell'agente
L'agente ha risolto completamente 7 giochi (28% di risoluzione)
Efficienza Relativa dell'Azione Umana >75% su 6 giochi
Multiple partite per alcuni giochi mostrano variabilità da esecuzione a esecuzione

Agente di Codifica con Modello del Mondo Raggiunge il 28% di Risoluzione su ARC-AGI-3

Fatti principali

Entità

Istituzioni

Fonti