Lo Scaling del Molti-Shot CoT-ICL Differisce per i Compiti di Ragionamento

ai-technology · 2026-05-14

Un recente preprint su arXiv (2605.13511) mette in discussione le attuali convinzioni riguardo all'apprendimento in contesto con molti esempi (many-shot ICL) per le sfide di ragionamento. I ricercatori studiano il chain-of-thought in-context learning con molti esempi (CoT-ICL) e scoprono che i principi tipici di scaling dei compiti non di ragionamento non si applicano. Notano un fenomeno di scaling dipendente dal contesto sia nei modelli linguistici di grandi dimensioni (LLM) focalizzati sul ragionamento che in quelli non focalizzati: mentre aumentare le dimostrazioni CoT si rivela instabile per gli LLM non di ragionamento, avvantaggia principalmente quelli progettati per il ragionamento. Inoltre, mentre il recupero basato sulla similarità è vantaggioso per i compiti non di ragionamento, fallisce nei compiti di ragionamento, poiché la similarità semantica non predice efficacemente la compatibilità procedurale (CoT). Questo studio sottolinea l'importanza di comprendere lo scaling dell'ICL in modo specifico per il compito.

Fatti principali

arXiv:2605.13511
Studiato il many-shot CoT-ICL per compiti di ragionamento
Le regole standard del many-shot non si trasferiscono al ragionamento
Osservato un effetto di scaling dipendente dal contesto
Aumentare le dimostrazioni CoT è instabile per gli LLM non di ragionamento
Il recupero basato sulla similarità fallisce nei compiti di ragionamento
La similarità semantica predice scarsamente la compatibilità CoT
Testati LLM non di ragionamento e orientati al ragionamento

Lo Scaling del Molti-Shot CoT-ICL Differisce per i Compiti di Ragionamento

Fatti principali

Entità

Istituzioni

Fonti