Il Metodo MEMENTO Insegna ai Modelli di IA a Comprimere il Contesto di Ragionamento per l'Efficienza
Un nuovo metodo chiamato MEMENTO insegna ai modelli di ragionamento di organizzare i loro stati intermedi segmentando il ragionamento in blocchi e comprimendo ciascuno in riassunti densi chiamati mementi. Questo approccio riduce il contesto, la cache KV e i requisiti computazionali mantenendo l'accuratezza. Per addestrare questi modelli, i ricercatori hanno rilasciato OpenMementos, un dataset pubblico contenente 228.000 tracce di ragionamento derivate da OpenThoughts-v3, che sono segmentate e annotate con riassunti intermedi. L'addestramento utilizza una ricetta di fine-tuning supervisionato in due fasi che si dimostra efficace su diverse famiglie di modelli tra cui Qwen3, Phi-4 e Olmo 3, e scala da 8B a 32B parametri. I modelli addestrati raggiungono una riduzione della cache KV di picco di circa 2,5 volte mantenendo prestazioni solide su benchmark di matematica, scienza e programmazione. Il sistema vLLM è stato esteso per supportare questo metodo di inferenza, ottenendo un miglioramento del throughput di circa 1,75 volte. Il metodo affronta la sfida dei flussi di ragionamento lunghi e non strutturati che mancano di meccanismi di compressione.
Fatti principali
- MEMENTO insegna ai modelli di segmentare il ragionamento in blocchi e comprimere ciascuno in mementi
- Il dataset OpenMementos contiene 228K tracce di ragionamento da OpenThoughts-v3
- La ricetta SFT in due fasi funziona su famiglie di modelli Qwen3, Phi-4 e Olmo 3
- I modelli mantengono l'accuratezza su benchmark di matematica, scienza e programmazione
- Raggiunge una riduzione della cache KV di picco di ~2,5×
- L'estensione vLLM fornisce un miglioramento del throughput di ~1,75×
- Il metodo riduce contesto, cache KV e requisiti computazionali
- Affronta flussi di ragionamento non strutturati senza meccanismi di compressione
Entità
—