I modelli linguistici addestrati sugli scacchi si basano sul riconoscimento di schemi, non sulla comprensione
Un recente studio contesta l'affermazione che i modelli linguistici addestrati su dati scacchistici possiedano una vera comprensione del gioco. I ricercatori hanno sviluppato KinGPT, un modello a livello di caratteri con 25 milioni di parametri, che ha superato ChessGPT da 3 miliardi di parametri in una serie di 600 puzzle di matto in N mosse e C1-4B da 4 miliardi di parametri in un benchmark di puzzle a 20 temi. Gli autori dello studio sostengono che i risultati impressionanti derivano principalmente dal riconoscimento di schemi piuttosto che da una reale comprensione. Inoltre, presentano LLM-Modulo, un framework che incorpora un verificatore nel ciclo, che ha migliorato l'accuratezza di RedPajama 3B per le mosse migliori dall'1,2% al 21,2% e la validità della generazione di mosse dal 19,3% al 95,3% nei puzzle di matto in N mosse, ottenendo risultati paragonabili a ChessGPT.
Fatti principali
- KinGPT è un modello linguistico a livello di caratteri con 25M di parametri addestrato solo su coppie (posizione, mossa migliore).
- KinGPT ha superato ChessGPT da 3 miliardi di parametri in una suite di 600 puzzle di matto in N mosse.
- KinGPT ha superato C1-4B da 4 miliardi di parametri in un benchmark di puzzle a 20 temi.
- Lo studio afferma che le prestazioni impressionanti nei benchmark sono in gran parte spiegate dal riconoscimento di schemi.
- LLM-Modulo è un framework con un verificatore nel ciclo.
- LLM-Modulo ha aumentato l'accuratezza della mossa migliore di RedPajama 3B dall'1,2% al 21,2%.
- LLM-Modulo ha migliorato la validità della generazione di mosse dal 19,3% al 95,3% nei puzzle di matto in N mosse.
- I miglioramenti ottenuti con LLM-Modulo sono paragonabili a quelli di ChessGPT.
Entità
Istituzioni
- arXiv