Painless Activation Steering automatizza il post-addestramento degli LLM
I ricercatori introducono Painless Activation Steering (PAS), un metodo completamente automatizzato per il post-addestramento di grandi modelli linguistici che elimina la necessità di coppie di prompt artigianali o di laboriosa annotazione delle caratteristiche. PAS funziona con qualsiasi dataset etichettato, rendendo l'attivazione steering comoda quanto metodi plug-and-play come l'apprendimento per rinforzo e il fine-tuning supervisionato. Il metodo è stato valutato su tre modelli open-weight: Llama3.1-8B-Instruct, DeepSeek-R1-Distill-8B e Nou. L'attivazione steering richiedeva in precedenza tentativi manuali, mentre il post-addestramento basato sui pesi è dispendioso in termini di tempo e costi. PAS automatizza il processo, offrendo un'alternativa economica, veloce e controllabile. L'articolo è disponibile su arXiv con identificativo 2509.22739.
Fatti principali
- PAS è un metodo di attivazione steering completamente automatizzato per LLM.
- Non richiede costruzione di prompt, etichettatura di caratteristiche o intervento umano.
- Valutato su Llama3.1-8B-Instruct, DeepSeek-R1-Distill-8B e Nou.
- L'attivazione steering è più economica e veloce dei metodi basati sui pesi.
- In precedenza, l'attivazione steering necessitava di coppie di prompt artigianali.
- PAS funziona con qualsiasi dataset etichettato.
- L'articolo è disponibile su arXiv (2509.22739).
- PAS mira a essere comodo quanto RL e SFT.
Entità
Istituzioni
- arXiv