La selezione dei dati guidata dall'interpretabilità aumenta l'efficienza del fine-tuning dei LLM

ai-technology · 2026-04-30

Un nuovo framework chiamato Interpretability-Guided Data Selection (IGDS) è stato introdotto dai ricercatori. Questo approccio utilizza strumenti di interpretabilità meccanicistica, come gli Autoencoder Sparsi (SAE), per individuare le caratteristiche causali relative ai compiti nei Large Language Models (LLM) e selezionare 'Dati Risonanti alle Caratteristiche' per il fine-tuning. Inizialmente, IGDS identifica le caratteristiche del compito attraverso il richiamo di frequenza e il filtraggio interventistico, selezionando successivamente i dati che attivano al meglio queste caratteristiche. Testato su compiti come ragionamento matematico, riassunto e traduzione utilizzando i modelli Gemma-2, LLaMA-3.1 e Qwen3, IGDS mostra una notevole efficienza dei dati. Nel compito di matematica, supera il fine-tuning sull'intero dataset del 17,4% su Gemma-2-2B utilizzando considerevolmente meno dati, collegando efficacemente l'interpretabilità meccanicistica con l'ottimizzazione del modello.

Fatti principali

Il framework IGDS utilizza Autoencoder Sparsi (SAE) per identificare le caratteristiche causali del compito.
Le caratteristiche vengono identificate attraverso il richiamo di frequenza e il filtraggio interventistico.
I 'Dati Risonanti alle Caratteristiche' selezionati attivano al massimo le caratteristiche del compito per il fine-tuning.
Validato sui modelli Gemma-2, LLaMA-3.1 e Qwen3.
I compiti includono ragionamento matematico, riassunto e traduzione.
Nel compito di matematica, IGDS supera il fine-tuning sull'intero dataset del 17,4% su Gemma-2-2B.
IGDS raggiunge prestazioni superiori con meno dati.
Il framework trasforma le intuizioni dell'interpretabilità meccanicistica in azioni pratiche.

Entità

—

Fonti

arXiv cs.AI — 2026-04-29