HAI-Eval: Benchmark per la Sinergia Uomo-AI nella Programmazione Collaborativa
Un nuovo benchmark chiamato HAI-Eval misura la sinergia delle partnership uomo-AI nella programmazione collaborativa. Sviluppato da ricercatori, colma il divario lasciato dai test umani tradizionali e dai benchmark per LLM, che si concentrano su problemi algoritmici ben definiti. HAI-Eval utilizza 45 modelli di problemi 'Collaborazione-Necessaria' che sono intrattabili per LLM autonomi o umani non assistiti, ma risolvibili attraverso una collaborazione efficace. Il benchmark fornisce un IDE standardizzato per i partecipanti umani per creare dinamicamente compiti, con l'obiettivo di catturare il cambiamento in cui il successo dipende dal ragionamento umano e dall'efficienza dell'IA.
Fatti principali
- HAI-Eval è un benchmark unificato per la sinergia uomo-AI nella programmazione.
- Utilizza 45 modelli di problemi 'Collaborazione-Necessaria'.
- I problemi sono intrattabili per LLM autonomi o umani non assistiti.
- Il benchmark fornisce un IDE standardizzato per i partecipanti umani.
- Affronta il cambiamento del paradigma di sviluppo dovuto agli agenti di programmazione basati su LLM.
- I sistemi di valutazione esistenti non riescono a catturare i problemi collaborativi.
- I problemi collaborativi richiedono ragionamento umano ed efficienza dell'IA.
- HAI-Eval crea dinamicamente compiti a partire da modelli.
Entità
Istituzioni
- arXiv