ActuBench: pipeline LLM multi-agente per il ragionamento attuariale
ActuBench è una pipeline LLM multi-agente innovativa progettata per semplificare la creazione e la valutazione di item di valutazione attuariale in linea con il Syllabus Educativo dell'International Actuarial Association (IAA). Questo sistema utilizza quattro ruoli specifici per i LLM: uno per la stesura degli item, un altro per la creazione di distrattori, un terzo per verificare entrambi i processi e supervisionare cicli di riparazione limitati, e un agente ausiliario economicamente efficiente per riassumere note di Wikipedia ed etichettare argomenti. Gli utenti possono accedere a tutti gli item, le risposte modello e una classifica completa tramite l'interfaccia web all'indirizzo https://actubench.de/en/. La pipeline ha valutato 50 modelli linguistici di otto diversi fornitori su due benchmark: 100 item a scelta multipla impegnativi e 100 item a risposta aperta valutati da un giudice LLM. I risultati principali indicano che la collaborazione tra agenti migliora la qualità degli item, il ciclo di riparazione corregge efficacemente gli errori e l'agente ottimizzato per i costi riduce i costi operativi.
Fatti principali
- ActuBench è una pipeline LLM multi-agente per la generazione e valutazione di valutazioni attuariali.
- Allineata con il Syllabus Educativo dell'International Actuarial Association (IAA).
- Quattro ruoli LLM: redattore di item, costruttore di distrattori, verificatore con ciclo di riparazione e agente ausiliario.
- Interfaccia web all'indirizzo https://actubench.de/en/ con item navigabili e classifica.
- Valutati 50 modelli linguistici di otto fornitori.
- Due benchmark: 100 item a scelta multipla e 100 a risposta aperta.
- La collaborazione multi-agente migliora la qualità degli item.
- Il ciclo di riparazione corregge efficacemente gli errori.
Entità
Istituzioni
- International Actuarial Association (IAA)