EvoTD: Scoperta Evolutiva dei Compiti per il Ragionamento dei LLM
Un nuovo framework noto come Evolutionary Task Discovery (EvoTD) affronta le carenze degli approcci di post-addestramento esistenti per i Large Language Models (LLM), tra cui l'Apprendimento per Rinforzo da Ricompense Verificabili (RLVR). La sfida principale risiede nei limiti della diversità e complessità dei dati di addestramento, che ostacolano i progressi nel ragionamento. Le attuali tecniche di sintesi dei dati soffrono frequentemente di collasso dell'omogeneità a causa di mutazioni o esplorazioni non strutturate. EvoTD affronta la sintesi dei dati come una ricerca mirata su un manifold a doppio asse di Abilità Algoritmiche e Attributi di Complessità. Presenta operatori evolutivi strutturati: un operatore di Crossover che crea nuove combinazioni di abilità per aumentare la diversità, e un operatore di Mutazione Parametrica che regola i vincoli strutturali. Questo framework mira ad ampliare sistematicamente le capacità di ragionamento dei LLM. L'articolo è disponibile su arXiv con l'identificatore 2605.11666.
Fatti principali
- EvoTD è un framework per la sintesi dei dati per migliorare il ragionamento dei LLM.
- Affronta il collasso dell'omogeneità nei metodi di sintesi esistenti.
- Il framework utilizza un manifold a doppio asse di Abilità Algoritmiche e Attributi di Complessità.
- L'operatore di Crossover sintetizza nuove composizioni di abilità.
- L'operatore di Mutazione Parametrica scala i vincoli strutturali.
- L'articolo è su arXiv con ID 2605.11666.
- I paradigmi di post-addestramento attuali includono RLVR.
- L'obiettivo è espandere sistematicamente la frontiera del ragionamento.
Entità
Istituzioni
- arXiv