AttuneBench: Nuovo benchmark misura l'intelligenza emotiva degli LLM nelle conversazioni
AttuneBench è stato lanciato da ricercatori come un nuovo benchmark volto a valutare l'intelligenza emotiva nei modelli linguistici di grandi dimensioni (LLM) attraverso interazioni autentiche a più turni. A differenza dei precedenti benchmark di IE che dipendono da prompt artificiali o scambi singoli, AttuneBench si basa su 200 dialoghi reali tra umani e LLM anonimizzati, in cui i partecipanti hanno fornito annotazioni dettagliate riguardanti i loro stati emotivi, il comportamento del modello e le loro preferenze di risposta. Questo benchmark valuta i modelli su diversi criteri, tra cui il riconoscimento delle emozioni, la classificazione comportamentale, la previsione delle preferenze e la qualità delle risposte. I risultati di 11 modelli rivelano che le classifiche di performance tra questi compiti sono in gran parte indipendenti, suggerendo che l'intelligenza emotiva comprende diverse abilità distinte piuttosto che una singola capacità. La ricerca sottolinea la necessità di valutazioni più sofisticate dell'IA conversazionale.
Fatti principali
- AttuneBench è un benchmark per l'intelligenza emotiva degli LLM.
- Utilizza 200 conversazioni genuine a più turni tra umani e modelli.
- I partecipanti hanno fornito annotazioni turno per turno sullo stato emotivo, il comportamento del modello e le risposte preferite.
- 11 modelli sono stati valutati su riconoscimento delle emozioni, classificazione comportamentale, previsione delle preferenze e qualità delle risposte.
- Le classifiche dei modelli tra i compiti erano in gran parte indipendenti.
- I benchmark esistenti di IE si basano su prompt sintetici o casi a turno singolo.
- La ricerca è pubblicata su arXiv con ID 2605.21739.
- L'intelligenza emotiva è centrale nella comunicazione umana.
Entità
Istituzioni
- arXiv