Il framework BITE sfrutta i bias stilistici dei giudici LLM

ai-technology · 2026-05-27

Un team di ricercatori ha sviluppato un sistema innovativo chiamato BITE, acronimo di BIas exploraTion and Exploitation. Questo sistema mira a manipolare i bias stilistici intrinseci presenti nei giudici basati su grandi modelli linguistici per migliorare i loro punteggi di valutazione. Inquadrando il processo di editing come un problema di bandit contestuale, BITE utilizza una politica LinUCB per apportare modifiche precise che aumentano i punteggi senza compromettere il messaggio originale. I test con molteplici giudici LLM hanno rivelato un tasso di successo superiore al 65%, con incrementi di punteggio di 1-2 punti su una scala a 9 punti, evidenziando una vulnerabilità critica nelle valutazioni LLM a causa della loro preferenza per determinati pattern verbosi.

Fatti principali

BITE è un framework avversario a scatola nera per sfruttare i bias stilistici nei giudici LLM.
Utilizza una formulazione di problema di bandit contestuale con politica LinUCB.
Non richiede accesso ai parametri o ai gradienti del modello.
Testato su confronti puntuali e a coppie per leaderboard di chatbot e benchmark di revisori AI.
Il tasso di successo dell'attacco supera il 65%.
I punteggi vengono aumentati di 1-2 punti su una scala a 9 punti.
L'equivalenza semantica viene preservata.
Il lavoro è pubblicato su arXiv con ID 2605.26156.

Il framework BITE sfrutta i bias stilistici dei giudici LLM

Fatti principali

Entità

Istituzioni

Fonti