Collo di Bottiglia nell'Addestramento degli LLM: La Lunghezza dell'Orizzonte Causa Instabilità

ai-technology · 2026-05-06

Un nuovo studio empirico su arXiv rivela che l'aumento della lunghezza dell'orizzonte del compito crea da solo un collo di bottiglia nell'addestramento dei grandi modelli linguistici (LLM) utilizzati come agenti interattivi. La ricerca costruisce sistematicamente compiti controllati in cui gli agenti affrontano identiche regole decisionali e strutture di ragionamento, differendo solo per la lunghezza delle sequenze di azioni necessarie per il successo. I risultati mostrano che orizzonti più lunghi inducono una grave instabilità nell'addestramento a causa di difficoltà di esplorazione e sfide nell'assegnazione del credito. Lo studio identifica la riduzione dell'orizzonte come principio chiave per stabilizzare l'addestramento. L'articolo è disponibile su arXiv:2605.02572.

Fatti principali

Lo studio esamina la lunghezza dell'orizzonte nell'addestramento degli LLM per compiti a lungo termine.
Compiti controllati isolano la lunghezza dell'orizzonte come unica variabile.
Orizzonti più lunghi causano instabilità nell'addestramento.
L'instabilità è guidata da difficoltà di esplorazione e sfide nell'assegnazione del credito.
La riduzione dell'orizzonte è proposta come principio chiave per affrontare il collo di bottiglia.
Articolo pubblicato su arXiv con ID 2605.02572.
Focus sulle dinamiche di addestramento piuttosto che su miglioramenti di sistema o algoritmici.
Gli agenti affrontano identiche regole decisionali e strutture di ragionamento tra i compiti.

Collo di Bottiglia nell'Addestramento degli LLM: La Lunghezza dell'Orizzonte Causa Instabilità

Fatti principali

Entità

Istituzioni

Fonti