SOMA: Servizio LLM multi-turn efficiente tramite modello linguistico piccolo
Un nuovo framework chiamato SOMA ottimizza il servizio LLM multi-turn utilizzando un piccolo modello surrogato per i turni di dialogo successivi. Apprende prompt soft per massimizzare la divergenza semantica tra modelli grandi e piccoli, applica il controllo anti-degenerazione e distilla la conoscenza per mantenere la qualità delle risposte riducendo latenza, memoria e costi API. L'approccio è dettagliato in arXiv:2605.11317.
Fatti principali
- arXiv:2605.11317
- framework SOMA
- servizio LLM multi-turn
- piccolo modello surrogato
- prompt soft
- divergenza semantica
- controllo anti-degenerazione
- distillazione
Entità
Istituzioni
- arXiv