Il Framework RePAIR Abilita la Rimozione Interattiva di Apprendimento per LLM Tramite Linguaggio Naturale

ai-technology · 2026-04-15

Un nuovo articolo di ricerca introduce la Rimozione Interattiva di Apprendimento (Interactive Machine Unlearning - IMU), un paradigma che consente agli utenti di istruire i grandi modelli linguistici a dimenticare conoscenze specifiche attraverso prompt in linguaggio naturale durante l'inferenza. L'approccio affronta il problema intrinseco degli LLM di assorbire contenuti dannosi, disinformazione e dati personali durante il pre-addestramento su corpora web. I metodi tradizionali di rimozione dell'apprendimento sono centrati sul fornitore, richiedendo pipeline di ri-addestramento, dataset curati e intervento diretto dei fornitori di servizi del modello, escludendo così gli utenti finali dal controllo dei propri dati. Per implementare l'IMU, i ricercatori hanno sviluppato RePAIR, un framework di riparazione del modello consapevole dei prompt, composto da tre componenti: un modello watchdog per rilevare l'intento di rimozione, un modello chirurgo per generare procedure di riparazione e un modello paziente i cui parametri vengono aggiornati autonomamente. L'innovazione centrale coinvolge meccanismi di Steering Through che abilitano aggiustamenti in tempo reale. Questa ricerca è stata pubblicata su arXiv con l'identificatore arXiv:2604.12820v1, classificata come nuovo annuncio. Il lavoro rappresenta un significativo spostamento verso il controllo centrato sull'utente sulla conoscenza dei modelli di IA, superando gli approcci dominati dai fornitori che limitano accessibilità e personalizzazione.

Fatti principali

I grandi modelli linguistici assorbono conoscenze dannose, disinformazione e dati personali durante il pre-addestramento
Gli approcci esistenti di rimozione dell'apprendimento sono centrati sul fornitore e richiedono pipeline di ri-addestramento
La Rimozione Interattiva di Apprendimento (IMU) consente agli utenti di istruire gli LLM a dimenticare conoscenze mirate attraverso linguaggio naturale
RePAIR è un framework di riparazione del modello consapevole dei prompt per implementare l'IMU
RePAIR consiste in modelli watchdog, chirurgo e paziente
Il framework abilita aggiornamenti autonomi dei parametri nel modello paziente
La ricerca è stata pubblicata su arXiv con l'identificatore arXiv:2604.12820v1
Il tipo di annuncio è nuovo

Entità

—

Fonti

arXiv cs.AI — 2026-04-15