Paradigma di Replicazione Primaria per il Benchmarking Comportamentale degli LLM
Un nuovo articolo su arXiv propone un paradigma di replicazione primaria per valutare il comportamento degli LLM, affrontando i limiti delle valutazioni umane soggettive e degli approcci LLM-as-judge. Il metodo certifica gli strumenti attraverso quattro proprietà: affidabilità tra esecuzioni, replicazione tra strumenti, calibrazione storica e previsione pre-registrata. Testato sull'accompagnamento emotivo, la rubrica si auto-evolve in una struttura stabile a 9 dimensioni.
Fatti principali
- L'accordo inter-valutatore umano sulle qualità soggettive degli LLM satura vicino a rho ~ 0.45
- Il proxy LLM-as-judge rischia circolarità se il giudice condivide la coorte di addestramento del target
- Il paradigma proposto utilizza quattro proprietà ortogonali: affidabilità, replicazione tra strumenti, calibrazione storica, previsione pre-registrata
- Testato sull'accompagnamento emotivo con una rubrica auto-evolvente guidata dai dati
- La procedura si stabilizza in una struttura a 9 dimensioni
Entità
—