ARTFEED — Contemporary Art Intelligence

Simulazione Utente Controllabile Formalizzata come Problema di Inferenza Causale

other · 2026-05-13

Un nuovo articolo su arXiv (2605.11519) formalizza la simulazione utente controllabile per la valutazione di agenti conversazionali come un problema di inferenza causale. Gli autori sostengono che il fine-tuning supervisionato standard su etichette di traiettorie post-hoc introduce un bias di sguardo in avanti, rompendo la coerenza causale. Dimostrano che sotto uno spostamento di politica, questo bias causa un'esplosione geometrica della varianza delle metriche di valutazione, un fenomeno chiamato "collasso della controllabilità". Il lavoro collega la valutazione del linguaggio naturale con la metodologia di valutazione off-policy, con l'obiettivo di migliorare i test controfattuali mirati degli agenti conversazionali.

Fatti principali

  • Numero articolo arXiv: 2605.11519
  • Tipo di annuncio: nuovo
  • Formalizza la simulazione controllabile come inferenza causale
  • Il fine-tuning supervisionato standard su etichette post-hoc causa un bias di sguardo in avanti
  • Il bias rompe la coerenza causale
  • Sotto uno spostamento di politica, la varianza delle metriche di valutazione esplode geometricamente
  • Fenomeno chiamato collasso della controllabilità
  • Collega la valutazione del linguaggio naturale con la valutazione off-policy

Entità

Istituzioni

  • arXiv

Fonti