Il framework POLIS potenzia il ragionamento dei LLM attraverso l'evoluzione culturale cumulativa

ai-technology · 2026-04-24

Un nuovo framework chiamato POLIS (Population Orchestrated Learning and Inference Society) consente ai grandi modelli linguistici di migliorare attraverso l'intelligenza cumulativa guidata dall'interazione, imitando l'evoluzione culturale cumulativa umana. In POLIS, molteplici agenti LLM generano soluzioni, verificano gli output reciproci e conservano gli artefatti validati in una memoria culturale condivisa, che viene poi interiorizzata tramite aggiornamenti dei parametri. Su benchmark di ragionamento matematico, popolazioni di modelli con 1-4 miliardi di parametri hanno ottenuto guadagni medi di 8,8-18,9 punti rispetto ai modelli base, riducendo il divario prestazionale con i modelli monolitici da oltre 70 miliardi di parametri. Ablazioni meccanicistiche hanno identificato la verifica tra pari come operatore chiave di ratcheting, con l'interiorizzazione che sostiene l'accumulo attraverso i cicli. La ricerca fornisce prove computazionali che i processi guidati dall'interazione possono migliorare le capacità dei LLM senza fare affidamento esclusivamente su corpora statici o sulla crescita dei parametri.

Fatti principali

POLIS sta per Population Orchestrated Learning and Inference Society.
Il framework utilizza agenti eterogenei che generano, verificano e conservano soluzioni.
Sono stati ottenuti guadagni di 8,8-18,9 punti sui benchmark di ragionamento matematico.
Modelli con 1-4 miliardi di parametri hanno ridotto il divario con modelli da oltre 70 miliardi di parametri.
La verifica tra pari è il principale operatore di ratcheting nel sistema.
L'interiorizzazione sostiene l'accumulo attraverso i cicli.
La ricerca è pubblicata su arXiv con ID 2507.21166.
L'articolo è stato annunciato come tipo replace-cross.

Il framework POLIS potenzia il ragionamento dei LLM attraverso l'evoluzione culturale cumulativa

Fatti principali

Entità

Istituzioni

Fonti