Il Modello Linguistico Proteico ESM2-8M si Affida al Recupero, Non all'Evidenza Biologica, per la Predizione della Metionina
Uno studio recente su arXiv indica che il modello linguistico proteico ESM2-8M non riesce a identificare la metionina in posizioni mascherate basandosi su dati biologici. Invece, estrae un segnale preferenziale per la metionina da una rappresentazione di riferimento collegata al token di inizio sequenza. Questa predizione emerge dalla competizione con circuiti dipendenti dal contesto, sottolineando la differenza tra previsioni affidabili e autentico riconoscimento biologico. Lo studio presenta anche una decomposizione norma-direzione dei punteggi di attenzione attraverso bande di frequenza rotazionali per chiarire come l'informazione posizionale viene trasmessa al readout, dimostrando che la codifica posizionale funziona attraverso alterazioni interconnesse.
Fatti principali
- Lo studio esamina la predizione di ESM2-8M che le proteine iniziano con metionina
- Il modello recupera il segnale dal token di inizio sequenza, non dalla posizione mascherata
- L'output finale emerge attraverso la competizione con circuiti dipendenti dal contesto
- I ricercatori introducono la decomposizione norma-direzione dei punteggi di attenzione
- La codifica posizionale opera attraverso cambiamenti accoppiati nei punteggi di attenzione
Entità
Istituzioni
- arXiv