ARTFEED — Contemporary Art Intelligence

Difficoltà dei dati e compromesso generalizzazione-estrapolazione nel fine-tuning dei LLM

ai-technology · 2026-05-14

Un recente preprint su arXiv (2605.12906) esplora l'impatto della difficoltà dei dati sul supervised fine-tuning (SFT) dei modelli linguistici di grandi dimensioni (LLM). I ricercatori concludono che non esiste un singolo livello di difficoltà ottimale; piuttosto, all'aumentare del budget di dati, la difficoltà ideale tende a favorire dati più impegnativi. Attraverso esperimenti sintetici controllati, identificano un equilibrio tra generalizzazione in-distribution e gap di estrapolazione. L'indagine analizza rigorosamente euristiche come perplessità, difficoltà e lunghezza, evidenziando discrepanze con studi precedenti. Questa ricerca combina approcci empirici e teorici, concentrandosi sulle strategie di selezione dei dati.

Fatti principali

  • Preprint arXiv 2605.12906
  • Studia la difficoltà dei dati nel fine-tuning dei LLM
  • Nessun livello di difficoltà universalmente ottimale
  • La difficoltà ottimale cambia con il budget di dati
  • Rivela il compromesso generalizzazione-estrapolazione
  • Utilizzati esperimenti sintetici controllati
  • Esamina euristiche: perplessità, difficoltà, lunghezza
  • Risultati precedenti inconsistenti notati

Entità

Istituzioni

  • arXiv

Fonti