I LLM faticano nell'interpretazione di grammatiche libere dal contesto

ai-technology · 2026-04-24

Una recente indagine pubblicata su arXiv (2604.20811) valuta i grandi modelli linguistici come interpreti di nuove grammatiche libere dal contesto in contesto. Il team presenta RoboGrid, un framework progettato per valutare gli LLM su vari aspetti come sintassi, comportamento e semantica tramite stress-test rigorosi incentrati su profondità di ricorsione, complessità delle espressioni e stili superficiali. I risultati indicano un declino gerarchico: mentre gli LLM mantengono la sintassi superficiale, faticano a preservare la semantica strutturale. Sebbene il ragionamento a catena di pensiero fornisca qualche miglioramento, le prestazioni si deteriorano significativamente con ricorsione profonda e ramificazione estesa, portando a una perdita di allineamento semantico a profondità estreme. Inoltre, l'impiego di lessici 'Alieni' evidenzia una dipendenza dal bootstrap semantico basato su parole chiave anziché sull'elaborazione pura di simboli.

Fatti principali

Lo studio valuta gli LLM come interpreti in contesto di grammatiche libere dal contesto
Introdotto il framework RoboGrid per testare sintassi, comportamento e semantica
Gli LLM mostrano un degrado gerarchico: sintassi superficiale preservata, semantica strutturale fallita
Il ragionamento CoT mitiga parzialmente, ma le prestazioni crollano sotto densità strutturale
Ricorsione profonda e alta ramificazione causano la scomparsa dell'allineamento semantico
I lessici alieni rivelano una dipendenza dal bootstrap semantico basato su parole chiave
Studio pubblicato su arXiv con ID 2604.20811
La ricerca evidenzia limiti per gli LLM in sistemi agenziali che richiedono aderenza a interfacce dinamiche

I LLM faticano nell'interpretazione di grammatiche libere dal contesto

Fatti principali

Entità

Istituzioni

Fonti