LH-Bench: Valutare l'IA su Compiti Aziendali Soggettivi
I ricercatori hanno introdotto LH-Bench, un nuovo framework di valutazione per valutare i grandi modelli linguistici su compiti aziendali soggettivi e a lungo termine. A differenza dei benchmark tradizionali che si concentrano su problemi oggettivamente verificabili come matematica e programmazione, LH-Bench affronta la complessità del lavoro reale, dove il successo dipende da obiettivi organizzativi, intenzioni dell'utente e artefatti intermedi. Il framework si basa su tre pilastri: rubriche basate su esperti che forniscono contesto di dominio per i giudici LLM, artefatti di verità fondamentali curati che consentono segnali di ricompensa graduali e valutazione delle preferenze umane a coppie per una validazione convergente. Lo studio dimostra che le rubriche create da esperti del dominio producono una valutazione sostanzialmente più affidabile. Il lavoro è dettagliato in arXiv:2603.22744.
Fatti principali
- LH-Bench valuta l'IA su compiti aziendali soggettivi.
- I benchmark tradizionali si concentrano su compiti oggettivamente verificabili.
- Il lavoro aziendale reale è soggettivo e dipendente dal contesto.
- Progettazione a tre pilastri: rubriche basate su esperti, artefatti di verità fondamentali, valutazione delle preferenze umane.
- Le rubriche create da esperti del dominio forniscono una valutazione più affidabile.
- Il framework valuta l'esecuzione autonoma a lungo termine.
- I segnali di ricompensa graduali utilizzano annotazioni a livello di capitolo.
- Ricerca pubblicata su arXiv con ID 2603.22744.
Entità
Istituzioni
- arXiv