GeoRA: Adattamento a Basso Rango Consapevole della Geometria Migliora RLVR per Modelli di Ragionamento

ai-technology · 2026-04-25

Un nuovo approccio noto come GeoRA (Geometry-Aware Low-Rank Adaptation) è stato introdotto per migliorare l'apprendimento per rinforzo con ricompense verificabili (RLVR) in modelli di ragionamento su larga scala. Le attuali tecniche di adattamento a basso rango, come PiSSA, sono progettate per il fine-tuning supervisionato (SFT) e non considerano le dinamiche di ottimizzazione e le caratteristiche geometriche uniche di RLVR. Il fine-tuning del sottospazio di parametri sparsi non strutturato preferito da RLVR risulta inefficiente sull'hardware contemporaneo. GeoRA sfrutta la natura anisotropa e comprimibile del sottospazio di aggiornamento RL per identificare le componenti principali, facilitando un adattamento efficace mantenendo le strutture geometriche stabilite durante il pre-addestramento. Questo metodo è descritto in un articolo disponibile su arXiv (2601.09361).

Fatti principali

1. GeoRA è un metodo di adattamento a basso rango progettato per RLVR.
2. RLVR è un paradigma chiave per migliorare i modelli di ragionamento su larga scala.
3. I metodi esistenti come PiSSA sono progettati per SFT, non per RLVR.
4. RLVR richiede la preservazione delle strutture geometriche pre-addestrate.
5. Il fine-tuning diretto di sottospazi sparsi non strutturati è inefficiente.
6. GeoRA sfrutta la struttura anisotropa e comprimibile del sottospazio di aggiornamento RL.
7. L'articolo è disponibile su arXiv con ID 2601.09361.
8. Il metodo estrae le componenti principali dal sottospazio di aggiornamento RL.

GeoRA: Adattamento a Basso Rango Consapevole della Geometria Migliora RLVR per Modelli di Ragionamento

Fatti principali

Entità

Istituzioni

Fonti