TRACE: Un Framework Senza Riferimenti per Valutare LLM Potenziati con Strumenti
TRACE, un nuovo framework, facilita una valutazione multidimensionale dei modelli linguistici di grandi dimensioni potenziati con strumenti senza la necessità di traiettorie di verità di base. Sfrutta un banco di prove che raccoglie intuizioni dai passi precedenti per valutare i percorsi di ragionamento in termini di efficienza, allucinazione e adattabilità. I ricercatori hanno sviluppato un dataset di meta-valutazione con una varietà di traiettorie difettose, ciascuna con punteggi di performance multidimensionali. I risultati indicano che TRACE valuta efficacemente traiettorie complesse, anche utilizzando piccoli LLM open-source. Questa ricerca affronta le carenze dei benchmark esistenti che si basano esclusivamente sul matching delle risposte, trascurando elementi essenziali della traiettoria. Il paper è disponibile su arXiv con l'identificatore 2510.02837.
Fatti principali
- TRACE è un framework senza riferimenti per la valutazione multidimensionale di LLM potenziati con strumenti
- Incorpora un banco di prove per accumulare conoscenze dai passi precedenti
- La valutazione copre efficienza, allucinazione e adattività delle traiettorie di ragionamento
- È stato sviluppato un nuovo dataset di meta-valutazione con diverse traiettorie difettose
- Ogni traiettoria è etichettata con punteggi di performance multidimensionali
- TRACE valuta accuratamente traiettorie complesse anche con piccoli LLM open-source
- I benchmark attuali sono limitati al matching delle risposte e trascurano gli aspetti della traiettoria
- Paper disponibile su arXiv con identificatore 2510.02837
Entità
Istituzioni
- arXiv