OpenComputer: Framework per Mondi Software Verificabili
OpenComputer è un framework incentrato sulla verifica, progettato per creare ambienti software verificabili per agenti informatici. Comprende quattro elementi chiave: verificatori di stato su misura per applicazioni specifiche con punti di ispezione strutturati per applicazioni reali, un livello di verifica auto-migliorante che aumenta l'affidabilità attraverso feedback dall'esecuzione, una pipeline per generare compiti sia realistici che verificabili, e un sistema di valutazione che traccia traiettorie complete calcolando ricompense parziali verificabili. Attualmente, comprende 33 applicazioni desktop e 1.000 compiti completati che spaziano tra browser, software per ufficio, strumenti creativi, piattaforme di sviluppo, sistemi di gestione file e app di comunicazione. La ricerca indica che i verificatori fissi di OpenComputer sono più in sintonia con il giudizio umano rispetto alle valutazioni degli LLM, specialmente quando il successo dipende da criteri sottili.
Fatti principali
- OpenComputer è un framework basato su verificatori per agenti che utilizzano computer.
- Integra quattro componenti: verificatori di stato, verifica auto-evolutiva, pipeline di generazione di compiti e sistema di valutazione.
- I verificatori di stato specifici per applicazione espongono endpoint di ispezione strutturati su applicazioni reali.
- Il livello di verifica auto-evolutivo migliora l'affidabilità dei verificatori utilizzando feedback basati sull'esecuzione.
- La pipeline di generazione di compiti sintetizza compiti desktop realistici e verificabili automaticamente.
- Il sistema di valutazione registra traiettorie complete e calcola ricompense parziali verificabili.
- OpenComputer copre 33 applicazioni desktop e 1.000 compiti finalizzati.
- I compiti spaziano tra browser, strumenti per ufficio, software creativi, ambienti di sviluppo, gestori di file e applicazioni di comunicazione.
- I verificatori hard-coded si allineano più strettamente con il giudizio umano rispetto alla valutazione LLM-as-judge.
Entità
—