LaMR: Ragionamento Latente Multi-Rubrica per il Pruning del Contesto degli Agenti di Codifica

ai-technology · 2026-05-18

Una recente pubblicazione su arXiv (2605.15315) presenta LaMR (Latent Multi-Rubric), un framework di pruning strutturato progettato per migliorare la compressione del contesto per agenti di codifica basati su LLM. I pruner tradizionali si basano su un etichettatore di sequenze a obiettivo singolo con un prior di transizione CRF, che ha difficoltà a gestire diversi modelli di ritenzione come span semantici contigui e linee di supporto strutturale sparse. LaMR scompone la rilevanza del codice in due dimensioni chiare: evidenza semantica e supporto di dipendenza, ciascuna rappresentata da un CRF specifico con dinamiche di transizione su misura. Una rete di gating che utilizza un mixture of experts regola i pesi delle emissioni in base alla query, mentre un livello CRF finale sulle emissioni combinate determina il risultato del pruning, affrontando i limiti della modellazione a obiettivo singolo per minimizzare lo spreco di token da file di repository irrilevanti.

Fatti principali

L'articolo arXiv 2605.15315 introduce LaMR (Latent Multi-Rubric).
LaMR è un framework di pruning strutturato per il contesto degli agenti di codifica.
I pruner esistenti utilizzano un etichettatore di sequenze a obiettivo singolo con un prior di transizione CRF.
La formulazione a obiettivo singolo crea un collo di bottiglia nella modellazione per modelli di ritenzione eterogenei.
LaMR scompone la rilevanza del codice in evidenza semantica e supporto di dipendenza.
Ogni dimensione è modellata da un CRF dedicato con specifiche dinamiche di transizione.
Una rete di gating mixture-of-experts pesa le emissioni per rubrica in base alla query.
Un livello CRF finale sulle emissioni fuse produce la decisione di pruning.

LaMR: Ragionamento Latente Multi-Rubrica per il Pruning del Contesto degli Agenti di Codifica

Fatti principali

Entità

Istituzioni

Fonti