AGPO: Ottimizzazione Asimmetrica delle Politiche di Gruppo per il Ragionamento Verificabile e la Rilevanza degli Annunci di Ricerca su JD

ai-technology · 2026-05-09

Viene proposto un nuovo metodo di apprendimento per rinforzo, l'Ottimizzazione Asimmetrica delle Politiche di Gruppo (AGPO), per migliorare il ragionamento nei modelli linguistici di grandi dimensioni (LLM) preservando al contempo la capacità di esplorazione. Gli attuali metodi RLVR migliorano l'efficienza del campionamento ma restringono i confini del ragionamento rispetto ai modelli di base. AGPO utilizza una strategia a dominanza negativa per sopprimere i percorsi errati e un meccanismo di vantaggio di gruppo per aggiornamenti positivi, concentrandosi sui percorsi corretti rari. L'articolo è pubblicato su arXiv con ID 2605.05826, con applicazioni su JD.com per la rilevanza degli annunci di ricerca.

Fatti principali

ID arXiv: 2605.05826
Tipo di annuncio: nuovo
I metodi RLVR migliorano l'efficienza del campionamento ma restringono i confini del ragionamento
AGPO utilizza un rinforzo a dominanza negativa per sopprimere i percorsi errati
AGPO utilizza un meccanismo di vantaggio di gruppo per aggiornamenti positivi
AGPO mantiene la capacità di esplorazione del modello di base
Applicazione su JD.com per la rilevanza degli annunci di ricerca
Pubblicato su arXiv

AGPO: Ottimizzazione Asimmetrica delle Politiche di Gruppo per il Ragionamento Verificabile e la Rilevanza degli Annunci di Ricerca su JD

Fatti principali

Entità

Istituzioni

Fonti