ARTFEED — Contemporary Art Intelligence

SOMA: Servizio LLM multi-turn efficiente tramite modello linguistico piccolo

ai-technology · 2026-05-13

Un nuovo framework chiamato SOMA ottimizza il servizio LLM multi-turn utilizzando un piccolo modello surrogato per i turni di dialogo successivi. Apprende prompt soft per massimizzare la divergenza semantica tra modelli grandi e piccoli, applica il controllo anti-degenerazione e distilla la conoscenza per mantenere la qualità delle risposte riducendo latenza, memoria e costi API. L'approccio è dettagliato in arXiv:2605.11317.

Fatti principali

  • arXiv:2605.11317
  • framework SOMA
  • servizio LLM multi-turn
  • piccolo modello surrogato
  • prompt soft
  • divergenza semantica
  • controllo anti-degenerazione
  • distillazione

Entità

Istituzioni

  • arXiv

Fonti