L'esplorazione ortogonale spettrale migliora il ragionamento dei LLM
Un nuovo studio su arXiv ha introdotto un framework chiamato Spectral Orthogonal Exploration (SOE) che mira ad affrontare un problema noto come 'Reasoning Collapse' nei Large Language Models (LLM) quando affrontano problemi matematici complessi. I ricercatori hanno scoperto che il ragionamento inefficace spesso rimane bloccato in un'area di bias a basso rango all'interno della struttura dello stato nascosto del modello, limitando la capacità di trovare risposte corrette. SOE utilizza un approccio 'Student Guides Teacher', in cui un agente ausiliario più debole agisce come una sonda ortogonale, iniettando segnali di ragionamento diversi nel sottospazio dell'insegnante principale. Questa strategia spinge l'insegnante a esplorare una gamma più ampia di opzioni di ragionamento, migliorando l'esplorazione rispetto al campionamento casuale tradizionale. I test su dataset matematici ne confermano il successo.
Fatti principali
- Articolo intitolato 'Student Guides Teacher: Weak-to-Strong Inference via Spectral Orthogonal Exploration'
- Identificatore arXiv: 2601.06160v2
- Affronta il 'Reasoning Collapse' nei LLM su compiti di ragionamento matematico
- Le tracce di ragionamento fallite sono associate a un manifold di bias a basso rango nella geometria dello stato nascosto
- Propone il framework Spectral Orthogonal Exploration (SOE)
- Utilizza il paradigma 'Student Guides Teacher' con un agente ausiliario debole come sonda ortogonale
- Inietta segnali di ragionamento eterogenei nel complemento ortogonale del sottospazio dominante dell'insegnante
- Gli esperimenti mostrano un'esplorazione migliorata rispetto al campionamento standard
Entità
Istituzioni
- arXiv