ARTFEED — Contemporary Art Intelligence

Faithful-Agent: Un Framework per Agenti GUI Affidabili

ai-technology · 2026-05-06

I ricercatori propongono Faithful-Agent, un framework per migliorare l'affidabilità negli agenti GUI basati su modelli visione-linguaggio. Questi agenti spesso si basano su scorciatoie piuttosto che su prove visive o istruzioni dell'utente. Faithful-Agent utilizza un pipeline a due fasi: una fase di supervised fine-tuning (SFT) orientata all'affidabilità per insegnare l'astensione sotto perturbazioni delle prove, e una fase di reinforcement fine-tuning (RFT) con un guided advantage estimator (GuAE) per prevenire il collasso del vantaggio sotto ricompense sparse. L'approccio mira a migliorare la fondatezza sulle prove e la coerenza interna.

Fatti principali

  • Faithful-Agent affronta il comportamento inaffidabile negli agenti GUI.
  • Utilizza un pipeline a due fasi: SFT e RFT.
  • La fase SFT instilla comportamenti di astensione sotto perturbazioni delle prove.
  • La fase RFT utilizza un guided advantage estimator (GuAE).
  • GuAE si basa su GRPO e previene il collasso del vantaggio.
  • Viene utilizzata una ricompensa di coerenza pensiero-azione.
  • Il framework dà priorità alla fondatezza sulle prove e alla coerenza interna.
  • L'articolo è disponibile su arXiv.

Entità

Istituzioni

  • arXiv

Fonti