ARTFEED — Contemporary Art Intelligence

CriterAlign: Nuovo Framework per la Valutazione delle Preferenze di Codice

other · 2026-05-20

CriterAlign è un framework innovativo che modifica la valutazione LLM basata su rubriche per la valutazione pairwise delle preferenze di codice. Incorpora giudizi diretti a livello di criterio, perfeziona i criteri in base ai pareggi, impiega il filtro di consistenza dello scambio e culmina in una sintesi pairwise finale. Questo metodo risolve le discrepanze tra il punteggio pointwise e le previsioni pairwise delle preferenze. Inoltre, il framework introduce la Guida Allineata alle Preferenze Umane (HPAG), creata offline a partire da campioni di training identificando schemi razionali comuni.

Fatti principali

  • 1. La previsione pairwise delle preferenze umane è centrale per la valutazione dei sistemi di generazione di codice.
  • 2. I giudici LLM basati su rubriche esistenti sono pointwise, valutando ogni risposta in modo indipendente.
  • 3. Il design pointwise è poco adatto alla previsione pairwise delle preferenze di codice.
  • 4. CriterAlign utilizza giudizi pairwise diretti a livello di criterio.
  • 5. CriterAlign include il perfezionamento dei criteri guidato dai pareggi.
  • 6. CriterAlign impiega il filtro di consistenza dello scambio.
  • 7. CriterAlign esegue una sintesi pairwise finale.
  • 8. HPAG è sintetizzato offline a partire da esempi di training.

Entità

Istituzioni

  • arXiv

Fonti