I LLM mostrano un bias posizionale nel framework di test di sensibilità semantica
È stato sviluppato un framework sperimentale scalabile per valutare metodicamente la sensibilità dei LLM a minime variazioni semantiche nei confronti di documenti, paragonabile alla ricerca di un ago in un pagliaio. I ricercatori hanno inserito singole frasi con alterazioni semantiche all'interno di un contesto più ampio, analizzando decine di migliaia di coppie di documenti. Hanno valutato cinque LLM sperimentando diversi tipi di perturbazioni, come negazioni, scambi di congiunzioni e modifiche di entità nominate. I tipi di contesto includevano contenuti originali confrontati con materiale tematicamente irrilevante, variando la posizione dell'ago e la lunghezza dei documenti. I risultati indicano che i LLM dimostrano un bias posizionale all'interno dei documenti, diverso dagli effetti di ordine dei candidati precedentemente osservati, con la maggior parte dei modelli che applicano penalizzazioni più severe alle differenze semantiche iniziali. Quando le frasi alterate erano collocate in contesti non correlati, i punteggi di similarità diminuivano sistematicamente. Questo framework è descritto nella preprint arXiv 2604.18835v1, riconosciuta come pubblicazione cross-type, offrendo una prospettiva multidimensionale su come i LLM gestiscono sottili cambiamenti semantici nei compiti di confronto testuale.
Fatti principali
- Framework sperimentale scalabile testa la sensibilità dei LLM ai cambiamenti semantici
- Analogato al problema dell'ago nel pagliaio con singole frasi alterate
- Cinque LLM testati su decine di migliaia di coppie di documenti
- Tipi di perturbazione variati: negazioni, scambi di congiunzioni, sostituzioni di entità nominate
- Tipi di contesto: materiale originale vs. tematicamente non correlato
- I LLM mostrano un bias posizionale all'interno del documento penalizzando maggiormente le differenze iniziali
- Il contesto tematicamente non correlato riduce sistematicamente i punteggi di similarità
- Preprint arXiv 2604.18835v1 annunciata come pubblicazione cross-type
Entità
—