PopuLoRA: Co-Evoluzione di Popolazioni di LLM per il Self-Play nel Ragionamento
Un nuovo framework chiamato PopuLoRA è stato sviluppato dai ricercatori, incentrato sul self-play asimmetrico basato su popolazione per l'apprendimento per rinforzo con ricompense verificabili (RLVR) dopo l'addestramento di grandi modelli linguistici (LLM). In questo sistema, adattatori LoRA specializzati agiscono come insegnanti e studenti su una base congelata condivisa. Gli insegnanti generano problemi che gli studenti risolvono con l'aiuto di un verificatore programmatico, mentre la valutazione incrociata tra diverse sottopopolazioni sostituisce i limiti del self-play a singolo agente. Inoltre, un insieme di operatori di evoluzione nello spazio dei pesi LoRA consente la generazione rapida di membri della popolazione con lo stesso rango all'interno di un ciclo di addestramento a scala 7B. Questo framework si basa su Absolute Zero Reasoner e viene confrontato con una baseline a singolo agente con risorse di calcolo equivalenti. I risultati sono dettagliati nell'articolo disponibile su arXiv, ID 2605.16727.
Fatti principali
- 1. PopuLoRA è un framework di self-play asimmetrico basato su popolazione per il post-addestramento RLVR di LLM.
- 2. Insegnanti e studenti sono adattatori LoRA specializzati su una base congelata condivisa.
- 3. Gli insegnanti propongono problemi, gli studenti abbinati li risolvono sotto un verificatore programmatico.
- 4. La valutazione incrociata tra sottopopolazioni sostituisce l'autocalibrazione del self-play a singolo agente.
- 5. Operatori di evoluzione nello spazio dei pesi LoRA (mutazioni e crossover) producono membri della popolazione con lo stesso rango in secondi.
- 6. Il framework opera a scala 7B.
- 7. Istanzializzato su Absolute Zero Reasoner.
- 8. Confrontato con una baseline a singolo agente con risorse di calcolo equivalenti per adattatore.
- 9. Il singolo agente si autocalibra generando problemi facili; la popolazione entra in una corsa agli armamenti co-evolutiva.
- 10. ID articolo: arXiv:2605.16727.
Entità
Istituzioni
- arXiv