Tag

#benchmark

Všetky publikované články, v ktorých sa téma benchmark objavuje ako dôležitý kontext. Aktuálne 5 textov v archíve.

Výskum25. júna 2026

AgentOdyssey testuje, či sa agenti vedia učiť počas dlhých textových hier

Nový preprint navrhuje benchmark, v ktorom agenti počas testovania skúmajú procedurálne generované textové svety, ukladajú skúsenosti a plánujú dlhé úlohy.

Výskum10. júna 2026

ServiceNow testuje, ako hlasoví agenti zvládajú prepínanie jazykov

Benchmark na Hugging Face ukazuje, že rozpoznávanie reči v dvojjazyčných kontaktných centrách zostáva pre hlasových agentov slabým miestom.

Výskum5. júna 2026

Biomazon prináša benchmark pre 3D štruktúru amazonských lesov z viacerých satelitných zdrojov

Nový arXiv preprint predstavuje Biomazon, multimodálny dataset a benchmark pre modelovanie vertikálnej štruktúry lesa a nadzemnej biomasy v Amazónii. Namiesto jedného výškového ukazovateľa učí modely predpovedať celý profil lesa.

Výskum5. júna 2026

Curation-Bench skúša, či všeobecní agenti zvládnu kurátorstvo tréningových dát

Nový preprint Curation-Bench testuje, či môžu všeobecní kódovací agenti automatizovať opakovaný cyklus výberu a úprav tréningových dát. Výsledok je povzbudivý, ale ukazuje aj jasnú hranicu: bez metodického lešenia agenti skôr ladia lokálne varianty než robia výskum.

Výskum15. apríla 2026

IBM a Hugging Face otvárajú VAKRA: benchmark pre agentov v API a dokumentoch

VAKRA chce merať agentov v prostredí, kde nestačí pekná ukážka ani jeden tool call. Benchmark kombinuje tisíce lokálnych API, databázy a dokumenty, aby bolo vidieť, kde sa agent láme pri viac-krokovom rozhodovaní a reálnom vykonávaní úloh.