OpenComputer: Framework per Mondi Software Verificabili

other · 2026-05-20

OpenComputer è un framework incentrato sulla verifica, progettato per creare ambienti software verificabili per agenti informatici. Comprende quattro elementi chiave: verificatori di stato su misura per applicazioni specifiche con punti di ispezione strutturati per applicazioni reali, un livello di verifica auto-migliorante che aumenta l'affidabilità attraverso feedback dall'esecuzione, una pipeline per generare compiti sia realistici che verificabili, e un sistema di valutazione che traccia traiettorie complete calcolando ricompense parziali verificabili. Attualmente, comprende 33 applicazioni desktop e 1.000 compiti completati che spaziano tra browser, software per ufficio, strumenti creativi, piattaforme di sviluppo, sistemi di gestione file e app di comunicazione. La ricerca indica che i verificatori fissi di OpenComputer sono più in sintonia con il giudizio umano rispetto alle valutazioni degli LLM, specialmente quando il successo dipende da criteri sottili.

Fatti principali

OpenComputer è un framework basato su verificatori per agenti che utilizzano computer.
Integra quattro componenti: verificatori di stato, verifica auto-evolutiva, pipeline di generazione di compiti e sistema di valutazione.
I verificatori di stato specifici per applicazione espongono endpoint di ispezione strutturati su applicazioni reali.
Il livello di verifica auto-evolutivo migliora l'affidabilità dei verificatori utilizzando feedback basati sull'esecuzione.
La pipeline di generazione di compiti sintetizza compiti desktop realistici e verificabili automaticamente.
Il sistema di valutazione registra traiettorie complete e calcola ricompense parziali verificabili.
OpenComputer copre 33 applicazioni desktop e 1.000 compiti finalizzati.
I compiti spaziano tra browser, strumenti per ufficio, software creativi, ambienti di sviluppo, gestori di file e applicazioni di comunicazione.
I verificatori hard-coded si allineano più strettamente con il giudizio umano rispetto alla valutazione LLM-as-judge.

Entità

—

Fonti

arXiv cs.AI — 2026-05-20