InteractBind testuje, či modely liekov vidia aj miesto väzby, nielen pravdepodobnosť
Nový arXiv benchmark InteractBind posúva hodnotenie modelov pre proteín-ligand väzby od jednoduchého skóre k lokalizácii väzbových miest a typov interakcií.
Tag
Všetky publikované články, v ktorých sa téma benchmarky objavuje ako dôležitý kontext. Aktuálne 39 textov v archíve.
Nový arXiv benchmark InteractBind posúva hodnotenie modelov pre proteín-ligand väzby od jednoduchého skóre k lokalizácii väzbových miest a typov interakcií.
Preprint katalogizuje textové a rečové dáta, modely a benchmarky pre dve západoafrické jazyky. Ukazuje, že aj pri desiatkach miliónov hovoriacich zostáva praktická infraštruktúra pre NLP nerovnomerná a krehká.
Nový benchmark od Apple skúša posunúť hodnotenie video-jazykových modelov od offline otázok k priebežným asistentom. Sleduje nielen správnosť odpovedí, ale aj načasovanie, stabilitu a schopnosť reagovať počas živého prúdu obrazov.
Nový benchmark sa zameriava na artefakty v generovaných videách: časové nekonzistencie, deformácie štruktúry a nesúlad medzi scénou a významom.
Nový Open Agent Leaderboard nechce merať iba model, ale celý agentický systém vrátane nástrojov, plánovania, pamäte a ceny prevádzky.
Nový benchmark ABRA neposudzuje len to, či model vie odpovedať na otázku k obrázku, ale či sa dokáže orientovať v reálnom rádiologickom prostredí, prepínať série, hýbať sa po rezoch a vytvoriť štruktúrovaný výstup, aký by mal zmysel aj mimo laboratória.
Nový paper FinAgent-RAG tvrdí, že pri finančných dokumentoch nestačí jednorazové vyhľadanie a odpoveď. Autori stavajú na opakovanom dohľadávaní, písaní vykonateľného kódu pre aritmetiku a smerovaní výpočtu podľa náročnosti otázky.
Apple Machine Learning Research predstavilo benchmark SFI-Bench, ktorý testuje, či multimodálne modely chápu nielen polohu objektov, ale aj ich funkciu. Nový video set s viac než 1700 otázkami má odhaliť, ako ďaleko sú dnešné MLLM od prakticky použiteľnej priestorovej inteligencie pre agentov a robotiku.
Hugging Face mení pravidlá svojho Open ASR Leaderboardu. Nové kvalitné, ale neverejné testovacie datasety majú obmedziť takzvané benchmaxxing a lepšie odlíšiť modely, ktoré zvládajú reálnu konverzačnú reč, prízvuky a menej sterilné podmienky.
Nový text na Hugging Face upozorňuje, že hodnotenie modelov a agentov už nie je len doplnok po tréningu. Pri drahých benchmarkoch, opakovaných behoch a multimodelových porovnaniach sa z evaluácií stáva samostatný nákladový problém.
Nový benchmark AgentSearchBench tvrdí, že pri AI agentoch nestačí opis v katalógu. Rozhodovať má aj správanie pri vykonaní úlohy a schopnosť zvládnuť úlohy z otvoreného prostredia.
OpenAI uviedlo GPT-5.5 ako nový vlajkový model pre kódovanie, prácu s nástrojmi a dlhšie agentické workflow. Firma tvrdí, že novinka posúva kvalitu práce v Codexe aj ChatGPT, no pritom drží latenciu na úrovni GPT-5.4 a pridáva prísnejšie bezpečnostné testovanie.