GeoRA: Adattamento a Basso Rango Consapevole della Geometria Migliora RLVR per Modelli di Ragionamento
Un nuovo approccio noto come GeoRA (Geometry-Aware Low-Rank Adaptation) è stato introdotto per migliorare l'apprendimento per rinforzo con ricompense verificabili (RLVR) in modelli di ragionamento su larga scala. Le attuali tecniche di adattamento a basso rango, come PiSSA, sono progettate per il fine-tuning supervisionato (SFT) e non considerano le dinamiche di ottimizzazione e le caratteristiche geometriche uniche di RLVR. Il fine-tuning del sottospazio di parametri sparsi non strutturato preferito da RLVR risulta inefficiente sull'hardware contemporaneo. GeoRA sfrutta la natura anisotropa e comprimibile del sottospazio di aggiornamento RL per identificare le componenti principali, facilitando un adattamento efficace mantenendo le strutture geometriche stabilite durante il pre-addestramento. Questo metodo è descritto in un articolo disponibile su arXiv (2601.09361).
Fatti principali
- 1. GeoRA è un metodo di adattamento a basso rango progettato per RLVR.
- 2. RLVR è un paradigma chiave per migliorare i modelli di ragionamento su larga scala.
- 3. I metodi esistenti come PiSSA sono progettati per SFT, non per RLVR.
- 4. RLVR richiede la preservazione delle strutture geometriche pre-addestrate.
- 5. Il fine-tuning diretto di sottospazi sparsi non strutturati è inefficiente.
- 6. GeoRA sfrutta la struttura anisotropa e comprimibile del sottospazio di aggiornamento RL.
- 7. L'articolo è disponibile su arXiv con ID 2601.09361.
- 8. Il metodo estrae le componenti principali dal sottospazio di aggiornamento RL.
Entità
Istituzioni
- arXiv