AGPO: Ottimizzazione Asimmetrica delle Politiche di Gruppo per il Ragionamento Verificabile e la Rilevanza degli Annunci di Ricerca su JD
Viene proposto un nuovo metodo di apprendimento per rinforzo, l'Ottimizzazione Asimmetrica delle Politiche di Gruppo (AGPO), per migliorare il ragionamento nei modelli linguistici di grandi dimensioni (LLM) preservando al contempo la capacità di esplorazione. Gli attuali metodi RLVR migliorano l'efficienza del campionamento ma restringono i confini del ragionamento rispetto ai modelli di base. AGPO utilizza una strategia a dominanza negativa per sopprimere i percorsi errati e un meccanismo di vantaggio di gruppo per aggiornamenti positivi, concentrandosi sui percorsi corretti rari. L'articolo è pubblicato su arXiv con ID 2605.05826, con applicazioni su JD.com per la rilevanza degli annunci di ricerca.
Fatti principali
- ID arXiv: 2605.05826
- Tipo di annuncio: nuovo
- I metodi RLVR migliorano l'efficienza del campionamento ma restringono i confini del ragionamento
- AGPO utilizza un rinforzo a dominanza negativa per sopprimere i percorsi errati
- AGPO utilizza un meccanismo di vantaggio di gruppo per aggiornamenti positivi
- AGPO mantiene la capacità di esplorazione del modello di base
- Applicazione su JD.com per la rilevanza degli annunci di ricerca
- Pubblicato su arXiv
Entità
Istituzioni
- JD.com
- arXiv