Nový preprint skúma, či sa dá únik dát odhaliť len z predikcií modelu
Preprint na arXiv navrhuje rámec na slepé odhaľovanie informačného úniku z predikcií a výsledkov, no zároveň dokazuje hranice toho, čo sa dá bez ďalších dát rozhodnúť.
Tag
Všetky publikované články, v ktorých sa téma evaluácia modelov objavuje ako dôležitý kontext. Aktuálne 3 textov v archíve.
Preprint na arXiv navrhuje rámec na slepé odhaľovanie informačného úniku z predikcií a výsledkov, no zároveň dokazuje hranice toho, čo sa dá bez ďalších dát rozhodnúť.
Nový preprint preveruje klinické interview benchmarky pre detekciu depresie štyrmi sondami. Ukazuje, že oficiálne splitovanie môže meniť poradie modelov, silné výsledky sa horšie prenášajú medzi dátovými sadami a textové signály sa správajú inak než audio.
Projekt QIMMA od Technology Innovation Institute tvrdí, že arabské benchmarky sú plné systematických chýb a že bez predbežnej validácie môžu leaderboardy skôr mýliť než presne merať kvalitu modelov.