M2A unisce il ragionamento matematico e agentico nei LLM
Un nuovo paradigma chiamato M2A sinergizza il ragionamento matematico e agentico nei grandi modelli linguistici attraverso il merging di modelli. Il ragionamento matematico si basa sulla logica intrinseca per problemi a mondo chiuso in una singola risposta, mentre il ragionamento agentico richiede interazioni multi-turno con ambienti esterni. Il loro disallineamento impedisce il reciproco beneficio e causa comportamenti instabili nell'apprendimento multi-task. M2A opera nello spazio dei parametri, identificando sottospazi di caratteristiche critici per il comportamento agentico per evitare l'overfitting. L'approccio fonde i modelli per combinare efficacemente entrambi i tipi di ragionamento.
Fatti principali
- M2A è un nuovo paradigma per sinergizzare il ragionamento matematico e agentico.
- Il ragionamento matematico usa la logica intrinseca per problemi a mondo chiuso in una singola risposta.
- Il ragionamento agentico richiede interazioni multi-turno con ambienti esterni.
- Il disallineamento tra i due tipi di ragionamento impedisce un reciproco beneficio efficace.
- L'apprendimento multi-task produce comportamenti di ragionamento instabili e limitati guadagni prestazionali.
- M2A opera direttamente nello spazio dei parametri.
- Identifica il sottospazio di caratteristiche critico per il comportamento agentico.
- Il merging di modelli evita l'overfitting a pattern di ragionamento superficiali.
Entità
Istituzioni
- arXiv