ARTFEED — Contemporary Art Intelligence

La selezione dei dati guidata dall'interpretabilità aumenta l'efficienza del fine-tuning dei LLM

ai-technology · 2026-04-30

Un nuovo framework chiamato Interpretability-Guided Data Selection (IGDS) è stato introdotto dai ricercatori. Questo approccio utilizza strumenti di interpretabilità meccanicistica, come gli Autoencoder Sparsi (SAE), per individuare le caratteristiche causali relative ai compiti nei Large Language Models (LLM) e selezionare 'Dati Risonanti alle Caratteristiche' per il fine-tuning. Inizialmente, IGDS identifica le caratteristiche del compito attraverso il richiamo di frequenza e il filtraggio interventistico, selezionando successivamente i dati che attivano al meglio queste caratteristiche. Testato su compiti come ragionamento matematico, riassunto e traduzione utilizzando i modelli Gemma-2, LLaMA-3.1 e Qwen3, IGDS mostra una notevole efficienza dei dati. Nel compito di matematica, supera il fine-tuning sull'intero dataset del 17,4% su Gemma-2-2B utilizzando considerevolmente meno dati, collegando efficacemente l'interpretabilità meccanicistica con l'ottimizzazione del modello.

Fatti principali

  • Il framework IGDS utilizza Autoencoder Sparsi (SAE) per identificare le caratteristiche causali del compito.
  • Le caratteristiche vengono identificate attraverso il richiamo di frequenza e il filtraggio interventistico.
  • I 'Dati Risonanti alle Caratteristiche' selezionati attivano al massimo le caratteristiche del compito per il fine-tuning.
  • Validato sui modelli Gemma-2, LLaMA-3.1 e Qwen3.
  • I compiti includono ragionamento matematico, riassunto e traduzione.
  • Nel compito di matematica, IGDS supera il fine-tuning sull'intero dataset del 17,4% su Gemma-2-2B.
  • IGDS raggiunge prestazioni superiori con meno dati.
  • Il framework trasforma le intuizioni dell'interpretabilità meccanicistica in azioni pratiche.

Entità

Fonti