ARTFEED — Contemporary Art Intelligence

OpenComputer: Framework per Mondi Software Verificabili

other · 2026-05-20

OpenComputer è un framework incentrato sulla verifica, progettato per creare ambienti software verificabili per agenti informatici. Comprende quattro elementi chiave: verificatori di stato su misura per applicazioni specifiche con punti di ispezione strutturati per applicazioni reali, un livello di verifica auto-migliorante che aumenta l'affidabilità attraverso feedback dall'esecuzione, una pipeline per generare compiti sia realistici che verificabili, e un sistema di valutazione che traccia traiettorie complete calcolando ricompense parziali verificabili. Attualmente, comprende 33 applicazioni desktop e 1.000 compiti completati che spaziano tra browser, software per ufficio, strumenti creativi, piattaforme di sviluppo, sistemi di gestione file e app di comunicazione. La ricerca indica che i verificatori fissi di OpenComputer sono più in sintonia con il giudizio umano rispetto alle valutazioni degli LLM, specialmente quando il successo dipende da criteri sottili.

Fatti principali

  • OpenComputer è un framework basato su verificatori per agenti che utilizzano computer.
  • Integra quattro componenti: verificatori di stato, verifica auto-evolutiva, pipeline di generazione di compiti e sistema di valutazione.
  • I verificatori di stato specifici per applicazione espongono endpoint di ispezione strutturati su applicazioni reali.
  • Il livello di verifica auto-evolutivo migliora l'affidabilità dei verificatori utilizzando feedback basati sull'esecuzione.
  • La pipeline di generazione di compiti sintetizza compiti desktop realistici e verificabili automaticamente.
  • Il sistema di valutazione registra traiettorie complete e calcola ricompense parziali verificabili.
  • OpenComputer copre 33 applicazioni desktop e 1.000 compiti finalizzati.
  • I compiti spaziano tra browser, strumenti per ufficio, software creativi, ambienti di sviluppo, gestori di file e applicazioni di comunicazione.
  • I verificatori hard-coded si allineano più strettamente con il giudizio umano rispetto alla valutazione LLM-as-judge.

Entità

Fonti