EvoTD: Scoperta Evolutiva dei Compiti per il Ragionamento dei LLM

ai-technology · 2026-05-13

Un nuovo framework noto come Evolutionary Task Discovery (EvoTD) affronta le carenze degli approcci di post-addestramento esistenti per i Large Language Models (LLM), tra cui l'Apprendimento per Rinforzo da Ricompense Verificabili (RLVR). La sfida principale risiede nei limiti della diversità e complessità dei dati di addestramento, che ostacolano i progressi nel ragionamento. Le attuali tecniche di sintesi dei dati soffrono frequentemente di collasso dell'omogeneità a causa di mutazioni o esplorazioni non strutturate. EvoTD affronta la sintesi dei dati come una ricerca mirata su un manifold a doppio asse di Abilità Algoritmiche e Attributi di Complessità. Presenta operatori evolutivi strutturati: un operatore di Crossover che crea nuove combinazioni di abilità per aumentare la diversità, e un operatore di Mutazione Parametrica che regola i vincoli strutturali. Questo framework mira ad ampliare sistematicamente le capacità di ragionamento dei LLM. L'articolo è disponibile su arXiv con l'identificatore 2605.11666.

Fatti principali

EvoTD è un framework per la sintesi dei dati per migliorare il ragionamento dei LLM.
Affronta il collasso dell'omogeneità nei metodi di sintesi esistenti.
Il framework utilizza un manifold a doppio asse di Abilità Algoritmiche e Attributi di Complessità.
L'operatore di Crossover sintetizza nuove composizioni di abilità.
L'operatore di Mutazione Parametrica scala i vincoli strutturali.
L'articolo è su arXiv con ID 2605.11666.
I paradigmi di post-addestramento attuali includono RLVR.
L'obiettivo è espandere sistematicamente la frontiera del ragionamento.

EvoTD: Scoperta Evolutiva dei Compiti per il Ragionamento dei LLM

Fatti principali

Entità

Istituzioni

Fonti