Second Guess: Un Metodo Leggero per il Rilevamento dell'Incertezza in Modelli Linguistici di Piccole Dimensioni
Una nuova tecnica chiamata Second Guess è stata introdotta dai ricercatori per migliorare l'astensione nel rispondere a domande a scelta multipla (MCQA) per modelli linguistici di piccole dimensioni (SLM) senza richiedere parametri. Questo approccio si basa sull'osservazione che i modelli sicuri delle loro risposte tendono a selezionarle in modo coerente, mentre quelli incerti mostrano un comportamento erratico quando viene presentata un'opzione 'Non lo so'. Testato su quattro modelli aperti (da 2B a 8B parametri) e quattro benchmark, Second Guess produce una riduzione del rischio composito del 10,81%. Mostra anche un miglioramento dell'8% su modelli ottimizzati dove i metodi basati sull'entropia falliscono, avvantaggiando in particolare i modelli con prestazioni inferiori. Questo metodo affronta il problema significativo degli SLM che forniscono risposte sicure ma errate a causa dei loro limiti operativi.
Fatti principali
- Second Guess è una tecnica di prompting leggera e senza parametri per l'astensione in MCQA.
- È progettata per modelli linguistici di piccole dimensioni (SLM) con 2B-8B parametri.
- Il metodo rileva l'incertezza osservando la stabilità delle risposte quando viene aggiunta un'opzione 'Non lo so'.
- Valutato su quattro modelli aperti e quattro benchmark.
- Raggiunge il più alto miglioramento del rischio composito del 10,81%.
- Mantiene un miglioramento del rischio composito dell'8% su modelli ottimizzati.
- I metodi basati sull'entropia degradano sui modelli ottimizzati.
- Migliora maggiormente per i modelli con prestazioni inferiori.
Entità
Istituzioni
- arXiv