ECC: Clustering di Query Calibrato sulle Evidenze per la Valutazione degli LLM
Un nuovo algoritmo noto come ECC (Evidence-Calibrated Clustering) migliora la valutazione dei modelli linguistici di grandi dimensioni (LLM) categorizzando le query in base ai loro requisiti di capacità latenti anziché alla loro mera semantica superficiale. Le tecniche di clustering tradizionali dipendono da tassonomie semantiche o embedding, che spesso non si allineano con le prestazioni effettive dei modelli. ECC perfeziona gli embedding semantici esistenti attraverso confronti limitati di modelli posteriori, collegando efficacemente la semantica superficiale con le reali esigenze di capacità. Ogni cluster è definito da un profilo di capacità, modellato da un framework Bradley-Terry, che incorpora pesi di miscela addestrabili per gestire query con esigenze variabili. Questo metodo sviluppa contemporaneamente un framework di clustering flessibile e sensibile alle capacità che consente l'inferenza delle abilità degli LLM specifica per query. Analisi quantitative e qualitative complete convalidano l'efficacia di ECC.
Fatti principali
- ECC sta per Evidence-Calibrated Clustering
- Affronta il disallineamento tra semantica superficiale e prestazioni effettive del modello nel clustering delle query
- Utilizza il modello Bradley-Terry per i profili di capacità
- Incorpora pesi di miscela addestrabili per richieste di capacità miste
- Supporta l'inferenza delle capacità degli LLM specifica per query
- Valutato attraverso metodi quantitativi e qualitativi
- Pubblicato su arXiv con ID 2605.17110
- Mirato a consentire una valutazione degli LLM sensibile alle capacità
Entità
Istituzioni
- arXiv