Metodo di Generazione ad Albero Riduce l'Oblio nei Grandi Modelli Linguistici
I ricercatori hanno introdotto un metodo di autodecompressione agnostico al modello chiamato Tree Generation (TG) per affrontare l'oblio catastrofico nei Grandi Modelli Linguistici (LLM) e nei Grandi Modelli Linguistici Multimodali (MLLM). Gli LLM spesso dimenticano conoscenze apprese in precedenza quando vengono messi a punto su dati specifici di dominio, mentre MLLM come LLaVA mostrano un calo delle prestazioni nei benchmark linguistici rispetto alle loro versioni unimodali. Il metodo TG decompone la conoscenza all'interno degli LLM nel corpus di addestramento, generando dati sintetici di supervised fine-tuning (SFT) per l'instruction tuning. Incorporando questo corpus scaricato durante l'SFT per i MLLM, il problema dell'oblio viene significativamente ridotto. L'articolo, intitolato "Preserving Knowledge in Large Language Model with Model-Agnostic Self-Decompression," si concentra su TG-SFT ed è stato sottomesso ad arXiv il 17 giugno 2024.
Fatti principali
- Tree Generation (TG) è un metodo di autodecompressione agnostico al modello.
- TG affronta l'oblio catastrofico negli LLM e MLLM.
- Gli LLM dimenticano conoscenze vecchie quando vengono post-pre-addestrati o sottoposti a supervised fine-tuning su dati specifici di dominio.
- MLLM come LLaVA mostrano un significativo calo delle prestazioni nei benchmark linguistici.
- TG decompone la conoscenza all'interno degli LLM nel corpus di addestramento.
- TG-SFT genera dati sintetici SFT per l'instruction tuning.
- Incorporare il corpus scaricato durante l'SFT per i MLLM riduce l'oblio.
- Articolo sottomesso ad arXiv il 17 giugno 2024.
Entità
Istituzioni
- arXiv