Il framework BITE sfrutta i bias stilistici dei giudici LLM
Un team di ricercatori ha sviluppato un sistema innovativo chiamato BITE, acronimo di BIas exploraTion and Exploitation. Questo sistema mira a manipolare i bias stilistici intrinseci presenti nei giudici basati su grandi modelli linguistici per migliorare i loro punteggi di valutazione. Inquadrando il processo di editing come un problema di bandit contestuale, BITE utilizza una politica LinUCB per apportare modifiche precise che aumentano i punteggi senza compromettere il messaggio originale. I test con molteplici giudici LLM hanno rivelato un tasso di successo superiore al 65%, con incrementi di punteggio di 1-2 punti su una scala a 9 punti, evidenziando una vulnerabilità critica nelle valutazioni LLM a causa della loro preferenza per determinati pattern verbosi.
Fatti principali
- BITE è un framework avversario a scatola nera per sfruttare i bias stilistici nei giudici LLM.
- Utilizza una formulazione di problema di bandit contestuale con politica LinUCB.
- Non richiede accesso ai parametri o ai gradienti del modello.
- Testato su confronti puntuali e a coppie per leaderboard di chatbot e benchmark di revisori AI.
- Il tasso di successo dell'attacco supera il 65%.
- I punteggi vengono aumentati di 1-2 punti su una scala a 9 punti.
- L'equivalenza semantica viene preservata.
- Il lavoro è pubblicato su arXiv con ID 2605.26156.
Entità
Istituzioni
- arXiv