Algoritmo apprende il comportamento corretto da pochi esempi per agenti autonomi
Un algoritmo innovativo consente agli agenti autonomi di acquisire un comportamento sequenziale accurato da soli 2-10 tracce di esecuzione, eliminando la necessità di specifiche manuali estese o numerosi esempi. Questo metodo, creato da ricercatori e condiviso su arXiv (2605.03159), integra l'analisi dei dominatori della teoria dei compilatori con la comprensione semantica potenziata da modelli linguistici multimodali di grandi dimensioni. Costruisce un modello di verità generalizzato utilizzando accettori ad albero prefisso, integra le tracce attraverso il rilevamento di equivalenze multilivello e verifica nuove esecuzioni tramite corrispondenza di sottosequenze topologiche. In test controllati, il sistema ha dimostrato un'accuratezza impressionante nell'identificare bug di prodotto e falsi successi con solo 3 esempi di addestramento.
Fatti principali
- L'algoritmo apprende da 2-10 tracce di esecuzione riuscite
- Combina analisi dei dominatori e comprensione semantica LLM multimodale
- Utilizza accettori ad albero prefisso per il modello di verità
- Convalida tramite corrispondenza di sottosequenze topologiche
- Ha raggiunto un'elevata accuratezza nel rilevare bug di prodotto e falsi successi
- Richiede solo 3 esempi di addestramento negli esperimenti
- Presentato su arXiv con ID 2605.03159
- Affronta la sfida della validazione del comportamento sequenziale negli agenti autonomi
Entità
Istituzioni
- arXiv