Il Metodo MEMENTO Insegna ai Modelli di IA a Comprimere il Contesto di Ragionamento per l'Efficienza

digital · 2026-04-14

Un nuovo metodo chiamato MEMENTO insegna ai modelli di ragionamento di organizzare i loro stati intermedi segmentando il ragionamento in blocchi e comprimendo ciascuno in riassunti densi chiamati mementi. Questo approccio riduce il contesto, la cache KV e i requisiti computazionali mantenendo l'accuratezza. Per addestrare questi modelli, i ricercatori hanno rilasciato OpenMementos, un dataset pubblico contenente 228.000 tracce di ragionamento derivate da OpenThoughts-v3, che sono segmentate e annotate con riassunti intermedi. L'addestramento utilizza una ricetta di fine-tuning supervisionato in due fasi che si dimostra efficace su diverse famiglie di modelli tra cui Qwen3, Phi-4 e Olmo 3, e scala da 8B a 32B parametri. I modelli addestrati raggiungono una riduzione della cache KV di picco di circa 2,5 volte mantenendo prestazioni solide su benchmark di matematica, scienza e programmazione. Il sistema vLLM è stato esteso per supportare questo metodo di inferenza, ottenendo un miglioramento del throughput di circa 1,75 volte. Il metodo affronta la sfida dei flussi di ragionamento lunghi e non strutturati che mancano di meccanismi di compressione.

Fatti principali

MEMENTO insegna ai modelli di segmentare il ragionamento in blocchi e comprimere ciascuno in mementi
Il dataset OpenMementos contiene 228K tracce di ragionamento da OpenThoughts-v3
La ricetta SFT in due fasi funziona su famiglie di modelli Qwen3, Phi-4 e Olmo 3
I modelli mantengono l'accuratezza su benchmark di matematica, scienza e programmazione
Raggiunge una riduzione della cache KV di picco di ~2,5×
L'estensione vLLM fornisce un miglioramento del throughput di ~1,75×
Il metodo riduce contesto, cache KV e requisiti computazionali
Affronta flussi di ragionamento non strutturati senza meccanismi di compressione

Entità

—

Fonti

arXiv cs.AI — 2026-04-14