LiteGUI: L'Apprendimento per Rinforzo Distilla Agenti GUI Compatti

other · 2026-05-11

Un nuovo paradigma di addestramento per agenti GUI su dispositivo, LiteGUI, utilizza l'apprendimento per rinforzo e la distillazione della conoscenza per migliorare modelli linguistico-visivi su piccola scala senza ottimizzazione supervisionata. Il metodo, chiamato Distillazione On-policy Guidata, integra traiettorie oracle e recupero dinamico per ridurre allucinazioni e disallineamento cognitivo in compiti GUI con soluzioni multiple. L'articolo è pubblicato su arXiv (2605.07505).

Fatti principali

1. LiteGUI è un paradigma di addestramento per agenti GUI su dispositivo.
2. Utilizza l'apprendimento per rinforzo e la distillazione della conoscenza.
3. Evita l'ottimizzazione supervisionata (SFT).
4. La Distillazione On-policy Guidata è il metodo principale.
5. Incorpora traiettorie di riferimento oracle.
6. Utilizza un meccanismo di recupero dinamico.
7. Riduce allucinazioni e disallineamento cognitivo.
8. L'articolo è su arXiv con ID 2605.07505.

LiteGUI: L'Apprendimento per Rinforzo Distilla Agenti GUI Compatti

Fatti principali

Entità

Istituzioni

Fonti