Allineamento dei modelli linguistici con feedback linguistico naturale online

ai-technology · 2026-05-07

Gli scienziati hanno creato tecniche per allineare i modelli linguistici in ambiti ambigui dove esperti umani possono offrire un'eccellente guida, sebbene per un numero limitato di output, attraverso feedback linguistico naturale in tempo reale. Questa strategia include l'ottimizzazione iterativa basata su segnali di ricompensa proxy, l'arresto prima dell'over-optimization, la raccolta di nuova supervisione esperta e la revisione della ricompensa proxy. I modelli di ricompensa proxy vengono sviluppati a partire da modelli linguistici tramite apprendimento in contesto e fine-tuning. Questi metodi sono stati valutati valutando le capacità di scrittura creativa di Qwen3-8B e le capacità di ricerca sull'allineamento di Haiku 4.5.

Fatti principali

Il documento è arXiv:2605.04356v1.
I metodi allineano i modelli linguistici in domini ambigui con feedback linguistico naturale online.
L'addestramento prevede l'ottimizzazione iterativa rispetto a segnali di ricompensa proxy.
I modelli di ricompensa proxy utilizzano apprendimento in contesto e fine-tuning.
Test condotti su Qwen3-8B per la scrittura creativa.
Test condotti su Haiku 4.5 per la ricerca sull'allineamento.
Esperti umani forniscono supervisione di alta qualità per un numero limitato di output.
L'approccio si ferma al punto di over-optimization.

Allineamento dei modelli linguistici con feedback linguistico naturale online

Fatti principali

Entità

Istituzioni

Fonti