ARTFEED — Contemporary Art Intelligence

ICRL: Addestramento Congiunto di Risolutore e Critico tramite Apprendimento per Rinforzo

ai-technology · 2026-05-18

Il framework ICRL (Internalizzare l'Autocritica con Apprendimento per Rinforzo) addestra simultaneamente un risolutore e un critico utilizzando un backbone comune, trasformando il successo guidato dalla critica in capacità indipendenti del risolutore. Il critico riceve ricompense legate al miglioramento delle prestazioni del risolutore, promuovendo un feedback costruttivo. Per affrontare lo shift distributivo tra il comportamento influenzato dalla critica e quello che non lo è, ICRL impiega un rapporto di ripesatura per calibrazione della distribuzione. Questo metodo mira a consentire agli agenti basati su modelli linguistici di grandi dimensioni di assimilare la guida della critica senza necessitare di feedback esterni durante il test.

Fatti principali

  • ICRL sta per Imparare a Internalizzare l'Autocritica con Apprendimento per Rinforzo
  • Il framework addestra congiuntamente un risolutore e un critico a partire da un backbone condiviso
  • Il critico viene ricompensato in base al successivo miglioramento delle prestazioni del risolutore
  • ICRL introduce un rapporto di ripesatura per calibrazione della distribuzione
  • L'approccio affronta lo shift distributivo tra comportamento condizionato dalla critica e comportamento senza critica
  • L'obiettivo è convertire il successo indotto dalla critica in capacità autonoma del risolutore
  • L'articolo è disponibile su arXiv con ID 2605.15224
  • La data di pubblicazione non è specificata nell'abstract

Entità

Istituzioni

  • arXiv

Fonti