La selezione dei dati guidata dall'interpretabilità aumenta l'efficienza del fine-tuning dei LLM
Un nuovo framework chiamato Interpretability-Guided Data Selection (IGDS) è stato introdotto dai ricercatori. Questo approccio utilizza strumenti di interpretabilità meccanicistica, come gli Autoencoder Sparsi (SAE), per individuare le caratteristiche causali relative ai compiti nei Large Language Models (LLM) e selezionare 'Dati Risonanti alle Caratteristiche' per il fine-tuning. Inizialmente, IGDS identifica le caratteristiche del compito attraverso il richiamo di frequenza e il filtraggio interventistico, selezionando successivamente i dati che attivano al meglio queste caratteristiche. Testato su compiti come ragionamento matematico, riassunto e traduzione utilizzando i modelli Gemma-2, LLaMA-3.1 e Qwen3, IGDS mostra una notevole efficienza dei dati. Nel compito di matematica, supera il fine-tuning sull'intero dataset del 17,4% su Gemma-2-2B utilizzando considerevolmente meno dati, collegando efficacemente l'interpretabilità meccanicistica con l'ottimizzazione del modello.
Fatti principali
- Il framework IGDS utilizza Autoencoder Sparsi (SAE) per identificare le caratteristiche causali del compito.
- Le caratteristiche vengono identificate attraverso il richiamo di frequenza e il filtraggio interventistico.
- I 'Dati Risonanti alle Caratteristiche' selezionati attivano al massimo le caratteristiche del compito per il fine-tuning.
- Validato sui modelli Gemma-2, LLaMA-3.1 e Qwen3.
- I compiti includono ragionamento matematico, riassunto e traduzione.
- Nel compito di matematica, IGDS supera il fine-tuning sull'intero dataset del 17,4% su Gemma-2-2B.
- IGDS raggiunge prestazioni superiori con meno dati.
- Il framework trasforma le intuizioni dell'interpretabilità meccanicistica in azioni pratiche.
Entità
—