ARTFEED — Contemporary Art Intelligence

Agente di Codifica con Modello del Mondo Raggiunge il 28% di Risoluzione su ARC-AGI-3

ai-technology · 2026-05-07

Un recente preprint su arXiv (2605.05138) valuta un framework di agente di codifica per ARC-AGI-3, che opera un modello del mondo Python eseguibile. Questo modello viene validato rispetto a osservazioni del mondo reale e semplificato tramite refactoring per ottenere una forma di bias verso la semplicità simile a MDL. La pianificazione avviene all'interno del modello prima dell'esecuzione. Il sistema comprende un controller scriptato, interfacce del modello del mondo predefinite, programmi di verifica e un esecutore di pianificazione, tutti privi di logica codificata specifica per il gioco. In 25 giochi pubblici ARC-AGI-3, ogni sessione utilizza una nuova istanza dell'agente senza accesso a file o conversazioni precedenti. L'agente ha completato con successo 7 giochi (28% di risoluzione), ha superato un'Efficienza Relativa dell'Azione Umana del 75% in 6 giochi e ha registrato un punteggio medio per gioco. È stata notata variabilità nei risultati tra diverse partite indipendenti per alcuni giochi. Questo metodo è volutamente semplice, enfatizzando la verifica esplicita e il refactoring rispetto a componenti apprese.

Fatti principali

  • arXiv:2605.05138 valuta un sistema di agente di codifica per ARC-AGI-3
  • L'agente mantiene un modello del mondo Python eseguibile
  • Il sistema utilizza controller scriptato, interfacce predefinite, programmi di verifica, esecutore di pianificazione
  • Nessuna logica codificata specifica per il gioco
  • Testato su 25 giochi pubblici ARC-AGI-3
  • Ogni partita utilizza una nuova istanza dell'agente
  • L'agente ha risolto completamente 7 giochi (28% di risoluzione)
  • Efficienza Relativa dell'Azione Umana >75% su 6 giochi
  • Multiple partite per alcuni giochi mostrano variabilità da esecuzione a esecuzione

Entità

Istituzioni

  • arXiv

Fonti