ARTFEED — Contemporary Art Intelligence

Scaling dell'Apprendimento In-Context dei Transformer per Compiti di Miscele Gaussiane

ai-technology · 2026-04-30

Un preprint arXiv (2604.25858) è stato pubblicato, dettagliando un'indagine empirica approfondita sull'apprendimento in-context (ICL) nei transformer, specificamente per la classificazione binaria di miscele gaussiane. Gli autori si basano sul fondamento teorico stabilito da Frei e Vardi (2024) per esplorare come fattori come la dimensione dell'input, la quantità di esempi in-context e il numero di compiti di pre-addestramento influenzino l'accuratezza del test. Attraverso un ambiente sintetico controllato e un approccio con classificatore lineare, identificano le condizioni geometriche necessarie per un'inferenza efficace. Questa ricerca colma una lacuna nella comprensione del comportamento di scaling empirico dell'ICL, che teorie precedenti avevano affrontato per la classificazione lineare ma non avevano completamente definito per compiti più complessi.

Fatti principali

  • Il preprint arXiv 2604.25858 indaga lo scaling dell'apprendimento in-context
  • Lo studio si concentra su compiti di classificazione binaria di miscele gaussiane
  • Si basa sul quadro teorico di Frei e Vardi (2024)
  • Analizza la dipendenza dalla dimensione dell'input, dagli esempi in-context e dai compiti di pre-addestramento
  • Utilizza un setup sintetico controllato e una formulazione con classificatore lineare
  • Isola le condizioni geometriche per un'inferenza riuscita
  • Affronta una lacuna nel comportamento di scaling empirico dell'ICL
  • La teoria precedente stabiliva condizioni per l'ICL nella classificazione lineare

Entità

Istituzioni

  • arXiv

Fonti