ARTFEED — Contemporary Art Intelligence

Ensembits: Primo Tokenizer per Insiemi Conformazionali di Proteine

other · 2026-05-14

I ricercatori hanno introdotto Ensembits, il primo tokenizer progettato per insiemi conformazionali di proteine, superando le limitazioni dei tokenizer esistenti per strutture proteiche (PST) che catturano solo la geometria locale statica. Ensembits gestisce movimenti correlati e stati alternativi derivanti da dati di dinamica molecolare. Utilizza un Residual VQ-VAE con un obiettivo di distillazione dei frame addestrato su un ampio corpus. Il metodo supera gli approcci correlati nella previsione di RMSF e eguaglia o supera i tokenizer statici nell'analisi dell'ampiezza del movimento.

Fatti principali

  • Ensembits è il primo tokenizer per insiemi conformazionali di proteine.
  • I PST esistenti catturano solo la geometria locale delle strutture statiche.
  • Ensembits affronta le sfide: derivare descrittori geometrici tra conformazioni, codifica di invarianza di permutazione e superare la scarsità.
  • Addestrato con un Residual VQ-VAE utilizzando un obiettivo di distillazione dei frame su un ampio corpus di dinamica molecolare.
  • Supera tutti i metodi correlati nella previsione di RMSF.
  • Miglior tokenizer strutturale autonomo nel test ANOVA condizionato dal token per l'ampiezza del movimento per residuo.
  • Eguaglia o supera i tokenizer statici nell'analisi dell'ampiezza del movimento.
  • Pubblicato su arXiv con ID 2605.13789.

Entità

Istituzioni

  • arXiv

Fonti