Tag

#benchmarky

Všetky publikované články, v ktorých sa téma benchmarky objavuje ako dôležitý kontext. Aktuálne 39 textov v archíve.

Výskum26. mája 2026

InteractBind testuje, či modely liekov vidia aj miesto väzby, nielen pravdepodobnosť

Nový arXiv benchmark InteractBind posúva hodnotenie modelov pre proteín-ligand väzby od jednoduchého skóre k lokalizácii väzbových miest a typov interakcií.

Výskum25. mája 2026

Nový prehľad mapuje NLP zdroje pre hausštinu a fongbe

Preprint katalogizuje textové a rečové dáta, modely a benchmarky pre dve západoafrické jazyky. Ukazuje, že aj pri desiatkach miliónov hovoriacich zostáva praktická infraštruktúra pre NLP nerovnomerná a krehká.

Výskum22. mája 2026

Apple navrhuje VSAS-Bench pre vizuálnych asistentov, ktorí reagujú v reálnom čase

Nový benchmark od Apple skúša posunúť hodnotenie video-jazykových modelov od offline otázok k priebežným asistentom. Sleduje nielen správnosť odpovedí, ale aj načasovanie, stabilitu a schopnosť reagovať počas živého prúdu obrazov.

Výskum21. mája 2026

Artifact-Bench testuje, či multimodálne modely vidia chyby v AI videách

Nový benchmark sa zameriava na artefakty v generovaných videách: časové nekonzistencie, deformácie štruktúry a nesúlad medzi scénou a významom.

Výskum18. mája 2026

IBM a Hugging Face spúšťajú Open Agent Leaderboard pre celé agentické systémy

Nový Open Agent Leaderboard nechce merať iba model, ale celý agentický systém vrátane nástrojov, plánovania, pamäte a ceny prevádzky.

Výskum11. mája 2026

ABRA chce zmerať radiologických agentov v reálnom prehliadači snímok

Nový benchmark ABRA neposudzuje len to, či model vie odpovedať na otázku k obrázku, ale či sa dokáže orientovať v reálnom rádiologickom prostredí, prepínať série, hýbať sa po rezoch a vytvoriť štruktúrovaný výstup, aký by mal zmysel aj mimo laboratória.

Výskum8. mája 2026

FinAgent-RAG cieli na výkazy: agentický RAG má zlepšiť finančné otázky aj cenu výpočtu

Nový paper FinAgent-RAG tvrdí, že pri finančných dokumentoch nestačí jednorazové vyhľadanie a odpoveď. Autori stavajú na opakovanom dohľadávaní, písaní vykonateľného kódu pre aritmetiku a smerovaní výpočtu podľa náročnosti otázky.

Výskum7. mája 2026

Apple predstavilo SFI-Bench, nový test pre multimodálne modely, ktorý posúva hodnotenie od polohy objektov k ich...

Apple Machine Learning Research predstavilo benchmark SFI-Bench, ktorý testuje, či multimodálne modely chápu nielen polohu objektov, ale aj ich funkciu. Nový video set s viac než 1700 otázkami má odhaliť, ako ďaleko sú dnešné MLLM od prakticky použiteľnej priestorovej inteligencie pre agentov a robotiku.

Výskum6. mája 2026

Hugging Face sprísňuje Open ASR Leaderboard, časť testov presúva do súkromných dát

Hugging Face mení pravidlá svojho Open ASR Leaderboardu. Nové kvalitné, ale neverejné testovacie datasety majú obmedziť takzvané benchmaxxing a lepšie odlíšiť modely, ktoré zvládajú reálnu konverzačnú reč, prízvuky a menej sterilné podmienky.

Výskum29. apríla 2026

AI evals sa menia na nový výpočtový strop vývoja modelov

Nový text na Hugging Face upozorňuje, že hodnotenie modelov a agentov už nie je len doplnok po tréningu. Pri drahých benchmarkoch, opakovaných behoch a multimodelových porovnaniach sa z evaluácií stáva samostatný nákladový problém.

Výskum24. apríla 2026

AgentSearchBench skúša nájsť správneho AI agenta mimo uzavretých demo katalógov

Nový benchmark AgentSearchBench tvrdí, že pri AI agentoch nestačí opis v katalógu. Rozhodovať má aj správanie pri vykonaní úlohy a schopnosť zvládnuť úlohy z otvoreného prostredia.

Modely23. apríla 2026

GPT-5.5 mieri na dlhšie úlohy: OpenAI pridáva výkon bez vyššej latencie

OpenAI uviedlo GPT-5.5 ako nový vlajkový model pre kódovanie, prácu s nástrojmi a dlhšie agentické workflow. Firma tvrdí, že novinka posúva kvalitu práce v Codexe aj ChatGPT, no pritom drží latenciu na úrovni GPT-5.4 a pridáva prísnejšie bezpečnostné testovanie.