AgentOdyssey testuje, či sa agenti vedia učiť počas dlhých textových hier
Nový preprint navrhuje benchmark, v ktorom agenti počas testovania skúmajú procedurálne generované textové svety, ukladajú skúsenosti a plánujú dlhé úlohy.
Tag
Všetky publikované články, v ktorých sa téma benchmark objavuje ako dôležitý kontext. Aktuálne 5 textov v archíve.
Nový preprint navrhuje benchmark, v ktorom agenti počas testovania skúmajú procedurálne generované textové svety, ukladajú skúsenosti a plánujú dlhé úlohy.
Benchmark na Hugging Face ukazuje, že rozpoznávanie reči v dvojjazyčných kontaktných centrách zostáva pre hlasových agentov slabým miestom.
Nový arXiv preprint predstavuje Biomazon, multimodálny dataset a benchmark pre modelovanie vertikálnej štruktúry lesa a nadzemnej biomasy v Amazónii. Namiesto jedného výškového ukazovateľa učí modely predpovedať celý profil lesa.
Nový preprint Curation-Bench testuje, či môžu všeobecní kódovací agenti automatizovať opakovaný cyklus výberu a úprav tréningových dát. Výsledok je povzbudivý, ale ukazuje aj jasnú hranicu: bez metodického lešenia agenti skôr ladia lokálne varianty než robia výskum.
VAKRA chce merať agentov v prostredí, kde nestačí pekná ukážka ani jeden tool call. Benchmark kombinuje tisíce lokálnych API, databázy a dokumenty, aby bolo vidieť, kde sa agent láme pri viac-krokovom rozhodovaní a reálnom vykonávaní úloh.