L'ottimizzazione dei prompt distorce le classifiche di valutazione degli LLM
Un nuovo articolo di ricercatori di informatica rivela che l'ottimizzazione dei prompt (PO) altera significativamente la classifica dei modelli linguistici di grandi dimensioni (LLM) nelle valutazioni. Gli attuali framework di valutazione utilizzano prompt statici per tutti i modelli, a differenza della pratica industriale in cui i prompt vengono ottimizzati per ogni modello. Lo studio, utilizzando benchmark accademici pubblici e interni all'industria, mostra che non ottimizzare i prompt prima della valutazione può produrre risultati fuorvianti. Gli autori sostengono che i professionisti devono eseguire la PO per modello quando selezionano il miglior LLM per un determinato compito.
Fatti principali
- 1. Gli attuali framework di valutazione degli LLM utilizzano lo stesso template di prompt statico per tutti i modelli.
- 2. La pratica industriale utilizza l'ottimizzazione dei prompt (PO) per massimizzare le prestazioni dell'applicazione per modello.
- 3. L'articolo indaga l'effetto della PO sulle valutazioni degli LLM.
- 4. I risultati mostrano che la PO influisce notevolmente sulla classifica finale dei modelli.
- 5. Lo studio ha utilizzato benchmark accademici pubblici e interni all'industria.
- 6. I professionisti dovrebbero eseguire la PO per modello quando conducono valutazioni.
- 7. L'articolo è intitolato 'Optimization before Evaluation: Evaluation with Unoptimised Prompts Can be Misleading'.
- 8. È classificato sotto Informatica > Intelligenza Artificiale.
Entità
Istituzioni
- arXiv