Distinguere l'Elicitazione delle Capacità dalla Creazione nel Post-Addestramento degli LLM

publication · 2026-05-12

Un recente articolo su arXiv (2605.08368) presenta l'idea che la ricerca successiva all'addestramento dei grandi modelli linguistici dovrebbe distinguere tra elicitazione delle capacità e creazione delle capacità. Gli autori sostengono che la percezione prevalente del fine-tuning supervisionato (SFT) come mera imitazione e dell'apprendimento per rinforzo (RL) come mezzo di scoperta è eccessivamente semplicistica. Propongono il concetto di supporto accessibile, che si riferisce alla gamma di comportamenti che un modello può effettivamente mostrare con risorse limitate. L'elicitazione delle capacità comporta un ripesamento dei comportamenti all'interno di questo supporto, mentre la creazione delle capacità implica l'alterazione del supporto stesso. Questa prospettiva è inquadrata attraverso i principi dell'energia libera, illustrando che sia SFT che RL possono essere interpretati come un ripesamento di una distribuzione di riferimento pre-addestrata. L'articolo cerca di chiarire questa distinzione per le future indagini.

Fatti principali

L'articolo distingue l'elicitazione delle capacità dalla creazione delle capacità nel post-addestramento degli LLM.
Introduce il concetto di supporto accessibile: comportamenti che un modello può produrre con budget finiti.
Il ripesamento all'interno del supporto accessibile è elicitazione; modificare il supporto è creazione.
Sostiene che SFT e RL ripesano entrambi una distribuzione di riferimento pre-addestrata.
Sviluppa l'argomento attraverso una prospettiva di energia libera.
Critica la visione grossolana di SFT come imitazione e RL come scoperta.
Mira a rendere operativa la distinzione per la ricerca sul post-addestramento.
Pubblicato su arXiv con ID 2605.08368.

Distinguere l'Elicitazione delle Capacità dalla Creazione nel Post-Addestramento degli LLM

Fatti principali

Entità

Istituzioni

Fonti