LiteGUI: L'Apprendimento per Rinforzo Distilla Agenti GUI Compatti
Un nuovo paradigma di addestramento per agenti GUI su dispositivo, LiteGUI, utilizza l'apprendimento per rinforzo e la distillazione della conoscenza per migliorare modelli linguistico-visivi su piccola scala senza ottimizzazione supervisionata. Il metodo, chiamato Distillazione On-policy Guidata, integra traiettorie oracle e recupero dinamico per ridurre allucinazioni e disallineamento cognitivo in compiti GUI con soluzioni multiple. L'articolo è pubblicato su arXiv (2605.07505).
Fatti principali
- 1. LiteGUI è un paradigma di addestramento per agenti GUI su dispositivo.
- 2. Utilizza l'apprendimento per rinforzo e la distillazione della conoscenza.
- 3. Evita l'ottimizzazione supervisionata (SFT).
- 4. La Distillazione On-policy Guidata è il metodo principale.
- 5. Incorpora traiettorie di riferimento oracle.
- 6. Utilizza un meccanismo di recupero dinamico.
- 7. Riduce allucinazioni e disallineamento cognitivo.
- 8. L'articolo è su arXiv con ID 2605.07505.
Entità
Istituzioni
- arXiv