Tag

#evaluácia modelov

Všetky publikované články, v ktorých sa téma evaluácia modelov objavuje ako dôležitý kontext. Aktuálne 3 textov v archíve.

Výskum11. júna 2026

Nový preprint skúma, či sa dá únik dát odhaliť len z predikcií modelu

Preprint na arXiv navrhuje rámec na slepé odhaľovanie informačného úniku z predikcií a výsledkov, no zároveň dokazuje hranice toho, čo sa dá bez ďalších dát rozhodnúť.

Výskum26. mája 2026

Audit benchmarkov na detekciu depresie upozorňuje na krehké rebríčky a slabý prenos modelov

Nový preprint preveruje klinické interview benchmarky pre detekciu depresie štyrmi sondami. Ukazuje, že oficiálne splitovanie môže meniť poradie modelov, silné výsledky sa horšie prenášajú medzi dátovými sadami a textové signály sa správajú inak než audio.

Výskum21. apríla 2026

QIMMA chce opraviť arabské leaderboardy skôr, než budú merať modely

Projekt QIMMA od Technology Innovation Institute tvrdí, že arabské benchmarky sú plné systematických chýb a že bez predbežnej validácie môžu leaderboardy skôr mýliť než presne merať kvalitu modelov.