Il Benchmark KnowledgeBerg Rivela le Limitazioni dei Modelli Linguistici di Grandi Dimensioni nella Conoscenza Sistematica e nel Ragionamento Composizionale
Un nuovo benchmark chiamato KnowledgeBerg valuta la capacità dei modelli linguistici di grandi dimensioni di gestire domande che richiedono una copertura sistematica della conoscenza e un ragionamento composizionale basato su insiemi. Il benchmark comprende 4.800 domande a scelta multipla derivate da 1.183 semi di enumerazione in 10 domini e 17 lingue. Queste domande sono basate su fonti autorevoli per garantire la riproducibilità. I modelli linguistici open-source testati mostrano limitazioni significative, raggiungendo solo punteggi F1 di 5,26-36,88 nelle attività di enumerazione dell'universo e un'accuratezza del 16,00-44,19 nel ragionamento basato sulla conoscenza. La ricerca formalizza questa sfida attraverso due dimensioni: ampiezza della conoscenza (cardinalità dell'universo richiesto) e profondità del ragionamento (numero di operazioni composizionali sugli insiemi). Le analisi diagnostiche identificano tre fasi di fallimento: completezza (conoscenza mancante), consapevolezza (incapacità di riconoscere la conoscenza richiesta) e ragionamento (incapacità di eseguire operazioni composizionali). Molte domande del mondo reale sembrano ingannevolmente semplici ma richiedono implicitamente queste capacità, un fenomeno descritto come "la punta dell'iceberg". Il benchmark è stato annunciato su arXiv con l'identificatore arXiv:2604.17621v1.
Fatti principali
- KnowledgeBerg è un benchmark di 4.800 domande a scelta multipla
- Le domande derivano da 1.183 semi di enumerazione in 10 domini e 17 lingue
- I modelli linguistici open-source hanno ottenuto un F1 di 5,26-36,88 nell'enumerazione dell'universo
- I modelli linguistici hanno ottenuto un'accuratezza del 16,00-44,19 nel ragionamento basato sulla conoscenza
- Il benchmark formalizza la sfida attraverso l'ampiezza della conoscenza e la profondità del ragionamento
- Le analisi diagnostiche rivelano tre fasi di fallimento: completezza, consapevolezza, ragionamento
- Le domande sono basate su fonti autorevoli per garantire la riproducibilità
- Annunciato su arXiv con l'identificatore arXiv:2604.17621v1
Entità
Istituzioni
- arXiv