Weblica: Ambienti Web Scalabili per l'Addestramento di Agenti Visivi
Un nuovo framework chiamato Weblica è stato introdotto dai ricercatori per creare ambienti web riproducibili e scalabili per l'addestramento di agenti visivi web. Questo framework utilizza la memorizzazione nella cache a livello HTTP per registrare e riprodurre stati visivi stabili mantenendo le funzionalità interattive, insieme alla sintesi di ambienti basata su LLM a partire da siti web reali. Weblica facilita l'addestramento con apprendimento per rinforzo in una moltitudine di ambienti vari. Il modello Weblica-8B che emerge da questo framework supera i baseline open-weight su diversi benchmark di navigazione web, raggiungendo questo risultato con un numero ridotto di passaggi di inferenza.
Fatti principali
- Weblica utilizza la memorizzazione nella cache a livello HTTP per la riproduzione stabile dello stato visivo.
- La sintesi di ambienti basata su LLM è fondata su siti web reali.
- L'addestramento RL si estende a migliaia di ambienti diversi.
- Weblica-8B supera i baseline open-weight di dimensioni simili.
- Weblica-8B utilizza meno passaggi di inferenza rispetto ai baseline.
- Il web è complesso, aperto e in costante cambiamento.
- La raccolta di dati esistente è limitata a traiettorie offline o ambienti simulati.
- Weblica sta per Web Replica.
Entità
Istituzioni
- arXiv