Partizionamento Differenziabile di Grafi Interpreta i Modelli Linguistici delle Proteine
I ricercatori propongono SoftBlobGIN, un framework che proietta le rappresentazioni del modello linguistico proteico ESM-2 su grafi di contatto per un'analisi strutturale interpretabile. Il metodo utilizza una Rete Isomorfa di Grafi con pooling differenziabile Gumbel-softmax per apprendere sottostrutture funzionali. Su compiti di classificazione enzimatica, raggiunge un'accuratezza del 92,8% e un macro-F1 di 0,898. A differenza delle analisi post hoc, SoftBlobGIN produce spiegazioni direttamente verificabili, con GNNExplainer che recupera residui del sito attivo e cluster catalitici biologicamente significativi.
Fatti principali
- SoftBlobGIN è un framework plug-and-play per le rappresentazioni di ESM-2.
- Proietta le rappresentazioni su grafi di contatto proteici.
- Utilizza una Rete Isomorfa di Grafi con pooling differenziabile Gumbel-softmax.
- Raggiunge un'accuratezza del 92,8% e un macro-F1 di 0,898 sulla classificazione enzimatica.
- Produce spiegazioni strutturali direttamente verificabili.
- GNNExplainer recupera residui del sito attivo e cluster funzionali.
- Il framework è sensibile alla struttura e apprende sottostrutture funzionali grossolane.
- Affronta l'interpretabilità degli spazi latenti densi nei modelli linguistici proteici.
Entità
—