Il framework CAP utilizza l'apprendimento per rinforzo per il disimparare nei LLM

ai-technology · 2026-04-25

Un nuovo approccio noto come Controllable Alignment Prompting for Unlearning (CAP) affronta il problema della cancellazione selettiva della conoscenza nei modelli linguistici di grandi dimensioni (LLM). I metodi attuali che modificano i parametri presentano sfide come elevate richieste computazionali, limiti di dimenticanza imprevedibili e dipendenza dall'accesso ai pesi del modello, rendendoli inefficaci per modelli closed-source. CAP separa il processo di disimparare in un'ottimizzazione di prompt che possono essere appresi tramite apprendimento per rinforzo. Un generatore di prompt lavora insieme al LLM per eliminare conoscenze specifiche mantenendo la funzionalità generale. Questo metodo è completo e guidato dai prompt, fornendo una soluzione non invasiva che evita di alterare i pesi del modello. La ricerca è pubblicata su arXiv con l'identificatore 2604.21251.

Fatti principali

CAP sta per Controllable Alignment Prompting for Unlearning.
Il framework utilizza l'apprendimento per rinforzo per l'ottimizzazione dei prompt.
Si concentra sul disimparare selettivo della conoscenza nei LLM.
I metodi esistenti modificano i parametri e hanno costi elevati.
CAP è non invasivo e non richiede l'accesso ai pesi del modello.
Un generatore di prompt collabora con il LLM.
L'approccio sopprime la conoscenza target preservando le capacità generali.
L'articolo è su arXiv con ID 2604.21251.

Il framework CAP utilizza l'apprendimento per rinforzo per il disimparare nei LLM

Fatti principali

Entità

Istituzioni

Fonti