Lo screening di pericolosità nella sintesi del DNA fallisce sotto shift tassonomico
Un recente studio indica che le tecniche esistenti di screening della sintesi del DNA sono inefficaci quando si ha a che fare con sequenze pericolose provenienti da famiglie tassonomiche non incluse nei database di riferimento. I ricercatori dimostrano che, sotto i vincoli del tasso di errore certificato del Controllo Conforme del Rischio, segnali a bassa discriminazione portano a soglie che scendono al di sotto delle masse di test sicure, causando un tasso di falsi positivi del 100%. Per risolvere questo problema, il team sviluppa tre segnali: similarità Jaccard dei k-mer con tossine note, punteggi medi troncati da un pannello di cinque giudici LLM e similarità coseno con centroidi di embedding clusterizzati. Integrandoli tramite un aggregatore logistico monotono e calibrato con il Controllo Conforme del Rischio, lo screener garantisce un tasso di falsi negativi atteso ≤ α. In pieghe leave-one-taxonomic-family-out a α=0.05 sulle tossine recensite UniProt KW-0800, lo screener calibrato raggiunge un tasso di errore di test dello 0%. La ricerca è accessibile su arXiv.
Fatti principali
- L'attuale screening della sintesi del DNA fallisce per sequenze di famiglie tassonomiche non presenti nei set di riferimento.
- La baseline collassa a un tasso di falsi positivi del 100% sotto shift tassonomico.
- Vengono composti tre segnali: similarità Jaccard dei k-mer, media troncata di un pannello di cinque giudici LLM, similarità coseno con centroidi di embedding.
- I segnali vengono fusi tramite un aggregatore logistico monotono e calibrati con il Controllo Conforme del Rischio.
- Certifica un tasso di falsi negativi atteso ≤ α.
- Testato su tossine recensite UniProt KW-0800 con pieghe leave-one-taxonomic-family-out a α=0.05.
- Lo screener calibrato raggiunge un tasso di errore di test dello 0%.
- Articolo pubblicato su arXiv con ID 2605.00074.
Entità
Istituzioni
- arXiv
- UniProt