Scaling dell'Apprendimento In-Context dei Transformer per Compiti di Miscele Gaussiane

ai-technology · 2026-04-30

Un preprint arXiv (2604.25858) è stato pubblicato, dettagliando un'indagine empirica approfondita sull'apprendimento in-context (ICL) nei transformer, specificamente per la classificazione binaria di miscele gaussiane. Gli autori si basano sul fondamento teorico stabilito da Frei e Vardi (2024) per esplorare come fattori come la dimensione dell'input, la quantità di esempi in-context e il numero di compiti di pre-addestramento influenzino l'accuratezza del test. Attraverso un ambiente sintetico controllato e un approccio con classificatore lineare, identificano le condizioni geometriche necessarie per un'inferenza efficace. Questa ricerca colma una lacuna nella comprensione del comportamento di scaling empirico dell'ICL, che teorie precedenti avevano affrontato per la classificazione lineare ma non avevano completamente definito per compiti più complessi.

Fatti principali

Il preprint arXiv 2604.25858 indaga lo scaling dell'apprendimento in-context
Lo studio si concentra su compiti di classificazione binaria di miscele gaussiane
Si basa sul quadro teorico di Frei e Vardi (2024)
Analizza la dipendenza dalla dimensione dell'input, dagli esempi in-context e dai compiti di pre-addestramento
Utilizza un setup sintetico controllato e una formulazione con classificatore lineare
Isola le condizioni geometriche per un'inferenza riuscita
Affronta una lacuna nel comportamento di scaling empirico dell'ICL
La teoria precedente stabiliva condizioni per l'ICL nella classificazione lineare

Scaling dell'Apprendimento In-Context dei Transformer per Compiti di Miscele Gaussiane

Fatti principali

Entità

Istituzioni

Fonti