Partizionamento Differenziabile di Grafi Interpreta i Modelli Linguistici delle Proteine

other · 2026-05-13

I ricercatori propongono SoftBlobGIN, un framework che proietta le rappresentazioni del modello linguistico proteico ESM-2 su grafi di contatto per un'analisi strutturale interpretabile. Il metodo utilizza una Rete Isomorfa di Grafi con pooling differenziabile Gumbel-softmax per apprendere sottostrutture funzionali. Su compiti di classificazione enzimatica, raggiunge un'accuratezza del 92,8% e un macro-F1 di 0,898. A differenza delle analisi post hoc, SoftBlobGIN produce spiegazioni direttamente verificabili, con GNNExplainer che recupera residui del sito attivo e cluster catalitici biologicamente significativi.

Fatti principali

SoftBlobGIN è un framework plug-and-play per le rappresentazioni di ESM-2.
Proietta le rappresentazioni su grafi di contatto proteici.
Utilizza una Rete Isomorfa di Grafi con pooling differenziabile Gumbel-softmax.
Raggiunge un'accuratezza del 92,8% e un macro-F1 di 0,898 sulla classificazione enzimatica.
Produce spiegazioni strutturali direttamente verificabili.
GNNExplainer recupera residui del sito attivo e cluster funzionali.
Il framework è sensibile alla struttura e apprende sottostrutture funzionali grossolane.
Affronta l'interpretabilità degli spazi latenti densi nei modelli linguistici proteici.

Entità

—

Fonti

arXiv cs.AI — 2026-05-13