Addestrare Agenti Linguistici ad Apprendere dall'Esperienza

ai-technology · 2026-05-22

Uno studio recente presenta l'In-context Training (ICT), un framework progettato per valutare l'auto-miglioramento in vari compiti negli agenti linguistici. I ricercatori propongono un pipeline di addestramento basato su reinforcement learning (RL) che consente a un modello riflettore di creare prompt di sistema basati su traiettorie osservate, migliorando l'efficacia del modello attore su compiti sconosciuti senza richiedere esempi umani. Negli esperimenti condotti su ALFWorld e MiniHack, i riflettori addestrati hanno superato le baseline non addestrate nella maggior parte delle famiglie di compiti esclusi, dimostrando che la capacità di apprendere dall'esperienza può effettivamente essere acquisita.

Fatti principali

1. L'articolo introduce il compito In-context Training (ICT).
2. ICT valuta l'auto-miglioramento cross-task negli agenti linguistici.
3. Un modello riflettore osserva le traiettorie di un modello attore.
4. Il riflettore genera prompt di sistema per migliorare le prestazioni future.
5. Viene utilizzato un pipeline di addestramento basato su RL senza esempi umani.
6. I test sono stati condotti negli ambienti ALFWorld e MiniHack.
7. I riflettori addestrati hanno superato le baseline non addestrate nella maggior parte delle famiglie di compiti esclusi.
8. L'articolo è disponibile su arXiv con ID 2605.20477.

Addestrare Agenti Linguistici ad Apprendere dall'Esperienza

Fatti principali

Entità

Istituzioni

Fonti